Maßzahlen für die Assoziationsanalyse im Data Mining: Fundierung, Analyse und Test
Stephan Hagemann
December 04, 2008
Die Assoziationsanalyse ist innerhalb des Data Mining eine sehr populäre Methode zur Gewinnung von Wissen aus großen Datenmengen. Ihr Ziel ist die Gewinnung von wenn-dann-Regeln zwischen verschiedenen Objekten. Eine solche Regel bedeutet z.B. bei der Warenkorbanalyse, dass ein bestimmter Artikel häufig gekauft wird, wenn auch ein anderer Artikel häufig gekauft wird. Über die Zeit sind viele Maße zur Messung dieser Assoziation vorgeschlagen worden. Es fehlt im Data Mining jedoch an einer allgemeinen Definition wünschenswerter Eigenschaften für Assoziationsmaße. Eine solche Definition erlaubt aber erst den Vergleich verschiedener Maße unabhängig von konkreten Daten. In dieser Arbeit werden Ergebnisse aus früheren Arbeiten zu Assoziations- und Korrelationsmaßen als Grundlage für die Entwicklung einer Axiomatisierung für Maße in der Assoziationsanalyse genutzt. Die im Data Mining verwendeten Maße werden vorgestellt und auf die Erfüllung der neu definierten Eigenschaften hin untersucht. So werden die Maße im Hinblick auf ihre Anwendung in der Assoziationsnalyse fundiert. Mit Hilfe von Testdatenbanken wird untersucht, in wie fern sich die Erfüllung oder Nicht-Erfüllung der Eigenschaften in den Ergebnissen von Assoziationsanalysen niederschlägt. Dazu wird eine Reihe von sowohl qualitativen als auch quantitativen Beobachtungen verglichen. Es zeigt sich, dass sehr viele der in der Praxis verwendeten Assoziationsmaße einer theoretischen Untersuchung nicht standhalten.