TaxoAdapt: Anpassung der LLM-basierten multidimensionalen Taxonomieerstellung an sich entwickelnde Forschungskorpora
TaxoAdapt: Aligning LLM-Based Multidimensional Taxonomy Construction to Evolving Research Corpora
June 12, 2025
Autoren: Priyanka Kargupta, Nan Zhang, Yunyi Zhang, Rui Zhang, Prasenjit Mitra, Jiawei Han
cs.AI
Zusammenfassung
Die rasche Entwicklung wissenschaftlicher Disziplinen stellt Herausforderungen bei der Organisation und dem Abruf wissenschaftlicher Literatur dar. Während traditionell von Experten kuratierte Taxonomien diesen Bedarf deckten, ist dieser Prozess zeitaufwendig und kostspielig. Darüber hinaus verlassen sich aktuelle automatische Methoden zur Taxonomieerstellung entweder (1) übermäßig auf ein spezifisches Korpus, wodurch die Allgemeingültigkeit beeinträchtigt wird, oder (2) stark auf das allgemeine Wissen großer Sprachmodelle (LLMs), das in ihren vortrainierten Datensätzen enthalten ist, wobei oft die dynamische Natur sich entwickelnder wissenschaftlicher Bereiche übersehen wird. Zusätzlich berücksichtigen diese Ansätze nicht die vielschichtige Natur wissenschaftlicher Literatur, bei der ein einzelnes Forschungspapier mehrere Dimensionen (z. B. Methodik, neue Aufgaben, Bewertungsmetriken, Benchmarks) abdecken kann. Um diese Lücken zu schließen, schlagen wir TaxoAdapt vor, ein Framework, das eine von einem LLM generierte Taxonomie dynamisch an ein gegebenes Korpus über mehrere Dimensionen anpasst. TaxoAdapt führt eine iterative hierarchische Klassifizierung durch und erweitert sowohl die Breite als auch die Tiefe der Taxonomie basierend auf der thematischen Verteilung des Korpus. Wir demonstrieren seine state-of-the-art-Leistung über eine Vielzahl von Informatikkonferenzen hinweg, um seine Fähigkeit zur Strukturierung und Erfassung der Entwicklung wissenschaftlicher Felder zu zeigen. Als multidimensionales Verfahren erzeugt TaxoAdapt Taxonomien, die 26,51 % besser die Granularität bewahren und 50,41 % kohärenter sind als die konkurrenzfähigsten Baselines, gemessen durch LLMs.
English
The rapid evolution of scientific fields introduces challenges in organizing
and retrieving scientific literature. While expert-curated taxonomies have
traditionally addressed this need, the process is time-consuming and expensive.
Furthermore, recent automatic taxonomy construction methods either (1)
over-rely on a specific corpus, sacrificing generalizability, or (2) depend
heavily on the general knowledge of large language models (LLMs) contained
within their pre-training datasets, often overlooking the dynamic nature of
evolving scientific domains. Additionally, these approaches fail to account for
the multi-faceted nature of scientific literature, where a single research
paper may contribute to multiple dimensions (e.g., methodology, new tasks,
evaluation metrics, benchmarks). To address these gaps, we propose TaxoAdapt, a
framework that dynamically adapts an LLM-generated taxonomy to a given corpus
across multiple dimensions. TaxoAdapt performs iterative hierarchical
classification, expanding both the taxonomy width and depth based on corpus'
topical distribution. We demonstrate its state-of-the-art performance across a
diverse set of computer science conferences over the years to showcase its
ability to structure and capture the evolution of scientific fields. As a
multidimensional method, TaxoAdapt generates taxonomies that are 26.51% more
granularity-preserving and 50.41% more coherent than the most competitive
baselines judged by LLMs.