University of Konstanz
Graduiertenkolleg / PhD Program
Computer and Information Science

Colloquium of the Department and the PhD Program

title

Ein Rahmenmodell für optimales Dokumenten-Clustering (16:00 s.t.)

speaker

Prof. Dr.-Ing. Norbert Fuhr, University of Duisburg
Duisburg, Germany

date & place

Wednesday, 19.05.2010, 16:00 h
Room C 252

abstract

Die Cluster-Hypothese besagt, dass relevante Dokumente untereinander ähnlicher sind als andere Paare von Dokumenten. In diesem Vortrag wird ein neues Rahmenmodell für Dokumenten-Clustering vorgestellt, das diese Hypothese umdreht und von einer gegebenen Fragemenge ausgeht, für die die Cluster-Hypothese erfüllt werden soll. Hierzu wird zunächst eine geeignete Cluster-Metrik definiert, die dann als Bezugspunkt für die Definition von optimalem Clustering dient. Ausgehend von der Schätzung der Relevanzwahrscheinlichkeit können dann Erwartungswerte für die Cluster-Metrik berechnet werden. Zur Entwicklung geeigneter Clustering-Verfahren werden vier Komponenten benötigt: Eine Menge von Anfragen, eine probabilistische Retrievalmethode, eine Ähnlichkeitsmetrik und ein Fusionsprinzip. Wir zeigen, dass viele bekannte Clustering-Methoden implizit auf diesen vier Komponenten basieren, allerdings willkürliche Entwurfsentscheidungen bezüglich einiger dieser Aspekte getroffen haben. Mit unserem Rahmenmodell wird nun zielgerichtetere Forschung zur Entwicklung besserer Clustering-Verfahren möglich. Erste experimentelle Ergebnisse demonstrieren das Potenzial unseres Ansatzes.