Mit Anticlustering möglichst gleiche Päckchen packen

Manchmal ist es wichtig, ganz unterschiedliche Dinge in möglichst ähnliche Gruppen zu sortieren: Wissenschaftlich heißt dies „Anticlustering“. Der Psychologe Dr. Martin Papenberg und der Informatiker Prof. Dr. Gunnar Klau von der Heinrich-Heine-Universität Düsseldorf (HHU) haben dazu neue Verfahren entwickelt und diese der Forschungsgemeinde zur Verfügung gestellt. Ihre Ergebnisse stellen sie in der Fachzeitschrift Psychological Methods vor.

Praxisbeispiel: unterschiedliche, aber gleichschwere Klausurfragen

Ein Cluster beschreibt eine Gruppe von Elementen, die einander ähnlich sind; verschiedene Cluster unterscheiden sich aber deutlich voneinander. Um solche Gruppen zu finden, führt man eine sogenannte Clusteranalyse durch. Es geht aber auch umgekehrt, dann spricht man vom „Anticlustering“: Dabei will man eine Menge von unterschiedlichen Elementen so aufteilen, dass sich die entstehenden Gruppen selbst ähneln.

Was theoretisch klingt, hat sehr konkrete Anwendungen. Ein aktuell sehr relevantes Beispiel: An der Universität soll eine Klausur geschrieben werden, nur ist der zur Verfügung stehende Raum zu klein für die Menge an Prüflingen. Also müssen mehrere Prüfungen hintereinander angesetzt werden. Dies stellt den Prüfenden vor zwei Herausforderungen: Einerseits müssen die verschiedenen Klausurgruppen unterschiedliche Prüfungsfragen bekommen, damit die späteren Prüflinge keine Tipps von den früher Schreibenden bekommen. Andererseits aber müssen die Klausuren gleich schwer sein, damit alle Prüflinge gleiche Chancen haben. Die Prüfungsfragen in jeder Klausur müssen also ähnlich gewichtet sein.

Algorithmen, die Leistungsfähigkeit und Genauigkeit überprüfen

Der Psychologe Dr. Martin Papenberg vom Institut für Experimentelle Psychologie und der Informatiker Prof. Dr. Gunnar Klau von der Arbeitsgruppe Algorithmische Bioinformatik der HHU haben gemeinsam neue Algorithmen für das Anticlustering entwickelt und deren Leistungsfähigkeit und Genauigkeit erfolgreich überprüft. Sie haben diese Algorithmen dann in einem für Forschende frei verfügbaren R-Paket veröffentlicht; dieses wird bereits in verschiedenen Arbeitsbereichen genutzt. „R“ ist eine Programmiersprache, die vornehmlich für statistische Berechnungen eingesetzt wird. Diese Sprache ist frei nutzbar und kann mit Zusatzpaketen wie dem Modul „anticlust“ von Papenberg und Klau erweitert werden.

Ansatz für viele unterschiedliche Bereiche

„Unser neuer Ansatz ist für viele unterschiedliche Bereiche anwendbar“, so Dr. Papenberg: „Gerade auch in meinem Fachgebiet, der Psychologie. Wir entwickeln oft Tests für mehrere Gruppen, die miteinander in Kontakt stehen; diese Tests sollen jeweils den gleichen Schwierigkeitsgrad haben.“

Die Forscher arbeiten seit Kurzem auch mit dem Universitätsklinikum Düsseldorf zusammen, wo das Anticlustering in der Genomsequenzierung eingesetzt werden soll. Hier sind Proben in möglichst heterogene Gruppen aufzuteilen, um die generierten DNA-Fragmente leichter den ursprünglichen Proben zuordnen zu können.

„Wir sehen auch ein Anwendungsfeld im Bereich der Künstlichen Intelligenz-Forschung,“ ergänzt Professor Klau, „genauer: bei der Aufteilung der Datensätze, die für das maschinelle Lernen genutzt werden.“ Dies ist wichtig, damit sich Lernergebnisse, die mit einem Teil der Daten erzielt worden sind, auch auf andere Datensätze übertragen lassen.

Literatur

Papenberg, M., & Klau, G. W. (2020). Using anticlustering to partition data sets into equivalent parts. Psychological Methods. Advance Online Publication.

Hier erhalten Sie das kostenlose Zusatzpaket „anticlust“ für das Programm „R“