top of page

Umgang mit Daten – Worauf muss ich besonders achten?

Viele Unternehmen arbeiten daran Datengetrieben zu werden. Dies erfordert allerdings auch, dass jede Angestellte ein gewisses Grundverständnis beim Thema Daten hat. In diesem Artikel wollen wir einige Impulse geben, worauf sie beim Sammeln und beim Auswerten der Daten achten sollen. Dabei sprechen wir unter anderem über die Bedeutung von:


- Der Qualität der Stammdaten

- Einem Grundverständnis von Statistischen Maßen

- Grundlagen bei der Visualisierung von Daten



Qualität der Stammdaten


Ein wichtiger Schritt, um mit den Analysen gute Ergebnisse zu erzielen sind akkurat gewartet Stammdaten. Die Wartung der Stammdaten in System wird oftmals im Tagesgeschäft einer geringeren Priorität zugewiesen. Oftmals wird nicht darauf geachtet, dass die Informationen historisierbar sind, und die Bedeutung verschiedener Felder sich über die Zeit geändert hat. Sind die Informationen nicht vollständig gewartet und es fehlt z.B. zu bestimmten Produkten ein erstmaliges Einstelldatum wird es schwierig den Verlauf der Verkäufe seit Beginn zu Berücksichtigen. Deshalb ist es wichtig dafür zu sorgen, dass die Stammdaten gepflegt sind. Neben der Aktualität von Stammdaten sollten diese auch möglichst standardisiert sein. Das bedeutet, es sollte möglichst wenig Freitext geben, sondern eine Vorauswahl bzw. Kontrolle der Eingabe. Dies verhindert Schreibfehler und verschiedene Kombinationen von Eingaben mit der gleichen Bedeutung. Vor allem bei Status Feldern oder Beschreibungen kann dies sonst für spätere Analytics Anwendungen kompliziert werden.

Ähnliches sollte auch bei den Transaktionsdaten der Fall sein. Hier sollten vor allem manuelle Eingriffe nachvollziehbar sein werden, sodass die Prozesse komplett nachverfolgbar sind.


Grundverständnis von statistischen Maßen


Wir möchten in diesem Artikel nicht zu tief in Statistik eintauchen, jedoch wollen wir einige Hinweise geben, worauf bei einfachen Statistischen Zahlen geachtet werden sollte und warum die Intuition hier teilweiße in eine falsche Richtung führen kann.

Zuerst möchten wir erläutern, warum ein Mittelwert allein nicht verwendet werden sollte, um eine Entscheidung zu treffen. Dafür zeigen wir in der Unteren Abbildung zwei Visualisierungen gezeigt, beide basieren auf Unterschiedlichen Verteilungen, zeigen aber den gleichen Mittelwert.



Ein Mittelwert liefert hier also kein ganzheitliches Bild. Er muss durch weitere Maße ergänzt werden, die mehr Informationen über die Daten liefern. Ein Beispiel dafür wäre die Standardabweichung als Streumaß. Dies sagt allerdings wenig über die Richtung der Abweichung aus. Für genauere Analysen sollte deshalb auch der Median und die 25% bzw. 75% Quantile betrachtet werden. Dies bedeutet das 25% der verfügbaren Daten bzw. 75% der Daten kleiner gleich dem Wert sind.


Ein Beispiel, warum die Intuition manchmal fehlleiten kann, ist das Simpson Paradox. Die Gefahr dabei entsteht vor allem wenn in einer Analyse eine Dimension herausgenommen bzw. nicht betrachtet wird. Entsteht aber auch mein der Aufsummierung von Prozentsätzen mit unterschiedlicher Anzahl an Beobachtungen.

Das bekannteste Beispiel dafür ist eine Statistik der Universität Barkley, nach der auf einen ersten Blick Frauen bei der Annahme der Bewerbungen benachteiligt wurden. Bei einer genaueren Analyse hatte sich jedoch gezeigt, dass Frauen sich für Studiengänge beworben haben, bei der mehr Personen abgelehnt werden. Nach einer Korrektur dieses Faktors waren Frauen sogar leicht bevorzugt.

Um also falsche oder voreilige Erkenntnisse zu verhindern, ist es wichtig Personen zu schulen, wie verschiedene Zahlen interpretiert werden sollten und welche Effekte dabei auftreten können.




Grundlagen bei der Visualisierung von Daten


Nach dem wir über Fallstricke in der Statistik gesprochen haben, möchten wir in diesem Teil etwas über die Auswahl von Visualisierungen sprechen. Zuerst möchten wir aufzeigen, warum sich ein Balkendiagrame für einen Vergleich besser eignen als Pie-Charts. In einem PI-Chart ist es schwer auf Visueller ebene die Werte wirklich zu vergleichen. Es wird kaum ein Unterschied deutlich zwischen dem grünen, roten und lila Anteil im Jahr 2022. Ein Vergleich zwischen 2021 und 2022 ist hier auch nicht leicht, da sich die Werte komplett verschieben. In den Balkendiagramme sind die Unterschiede leicht sichtbar und ein Vergleich zwischen zwei Diagrammen ist sehr einfach.



Basierend auf dem Vergleich der Balkendiagramme von 2021 zu 2022 möchten wir einige weitere Punkte herausarbeiten. Zuerst die Beschriftung der Achsen. Im Jahr 2022 ist keine Einheit genannt und die x-Achse ist nicht beschriftet. 2022 ist [%] als Einheit ergänzt und die Kategorien wurde auf die x-Achse geschrieben. Eine vollständige Beschriftung verhindert Missverständnisse und erleichtert das Verständnis der Konsumenten.

Zum anderen sollte unnötige Farben entfernt werden, die Farben im Jahr 2021 sind nicht nötig für den Vergleich und lenken von den Informationen ab. Die Visualisierung aus 2022 ist zwar wesentlich unspektakulärer, lenkt dafür allerdings den Fokus auf das wesentliche. Unnötige Farbcodierungen sollten in Graphiken generell vermieden werden. Das Ziel von Graphiken ist eine Entscheidungsfindung unterstützten bzw. Informationen zu vermitteln, darauf sollte also auch der Fokus liegen. Eine Überladung mit visuellen Elementen erschwert dies.



Zusammenfassung


Akkurate und gut gepflegte Stammdaten bilden den Grundstein für den Erfolg in Analytics Anwendungen. Dabei ist wichtig, dass bei den Mitarbeitern ein Verständnis dafür existiert. Durch Vereinheitlichung und Überprüfung von Eingaben kann die Qualität hier weiter erhöht werden. Wenn ein Mittelwert ohne weiteren Kontext präsentiert wird, ist der Informationsgehalt gering. Für eine fundierte Entscheidung werden weitere Informationen benötigt, deshalb ist hier Vorsicht geboten. Dabei muss bei der Interpretation von Daten darauf geachtet werden, dass der erste Eindruck nicht täuscht, wie z.B. bei dem Simpsons-Paradox. Bei der Präsentation von Daten in einer Graphik sollte darauf geachtet werden, dass die Diagramme vollständig beschriftet und einfach gehalten sind, um den Fokus auf die Informationen zu richten.



Aktuelle Beiträge

Alle ansehen

Comments


bottom of page