Simpson-Paradoxon

01.01.2000

Seit 2000 ist uns das Simpson-Paradoxon bekannt. Obwohl es Statistikern, Medizinern und Praktikern des Maschinellen Lernens zum Teil bekannt ist, wird es doch in allen Business Intelligence und CRM-Systemen ignoriert, die auf zusammengefaßten Werten basieren (Kennzahlensysteme) - und das sind praktisch alle existierenden Produkte.

Simpson-Paradoxon: Wenn Daten, die auf verschiedene Weise zusammengefaßt (zB aufsummiert) werden, scheinbar widersprechende Interpretationen und somit Entscheidungen bedingen. Hier ist ein kurzes Beispiel aus der Medizin: zwei Behandlungen (1 und 2), jeweils nach Erfolg und Mißerfolg aufgeschlüsselt:

GeschlechtBehandlung#Erfolg#Mißerfolg%Erfolg
Männlich1602075%
Männlich21005067%
Weiblich1408033%
Weiblich2103025%

Es scheint klar zu sein, daß Behandlung 1 etwas besser wirkt, da die Erfolgsrate (%Erfolg) sowohl für Männer als auch für Frauen etwas höher ist. Jedoch, wenn wir die Resultate für beide Geschlechter kombinieren, sieht die Tabelle so aus:

Behandlung#Erfolg#Mißerfolg%Erfolg
110010050%
21108058%

Plötzlich sieht es so aus, als ob Behandlung 2 etwas besser wirkt. Das ist das Simpson-Paradoxon. Eine Entscheidung basierend auf der zweiten Tabelle wäre falsch, da hier die Summierung wesentliche Daten entfernt - in unserem Fall die unterschiedliche Anzahl von Frauen und Männern in der Studie, gekoppelt mit der Tatsache, das beide Behandlungen bei Männern wesentlich besser wirken.

Mit umfangreichen realen Daten eines aktiven OLAP-Systems (Aggregationshierarchie für alle Attribute, ein Datensnapshot auf der höchsten Detailebene und eine Beschreibung, wie das System für Entscheidungen benutzt wird) wäre es uns möglich, zu testen, inwiefern das Gesamtsystem anfällig für das Simpson-Paradoxon ist, und entsprechende Beispiele direkt aus den Daten zu liefern. Damit kann das BI-System robuster gegen Fehlentscheidungen gemacht werden, und Sie leisten einen Beitrag zum besseren Verständnis dieses Paradoxons.