TaxoAdapt: Afstemming van op LLM gebaseerde multidimensionale taxonomieconstructie op evoluerende onderzoekscorpora
TaxoAdapt: Aligning LLM-Based Multidimensional Taxonomy Construction to Evolving Research Corpora
June 12, 2025
Auteurs: Priyanka Kargupta, Nan Zhang, Yunyi Zhang, Rui Zhang, Prasenjit Mitra, Jiawei Han
cs.AI
Samenvatting
De snelle evolutie van wetenschappelijke vakgebieden brengt uitdagingen met zich mee bij het organiseren en terugvinden van wetenschappelijke literatuur. Hoewel door experts samengestelde taxonomieën traditioneel in deze behoefte voorzien, is dit proces tijdrovend en kostbaar. Bovendien vertrouwen recente methoden voor automatische taxonomieconstructie ofwel (1) te sterk op een specifiek corpus, wat ten koste gaat van de generaliseerbaarheid, ofwel (2) te veel op de algemene kennis van grote taalmodelen (LLMs) die in hun vooraf getrainde datasets zijn opgenomen, waarbij vaak het dynamische karakter van evoluerende wetenschappelijke domeinen over het hoofd wordt gezien. Daarnaast houden deze benaderingen geen rekening met de veelzijdige aard van wetenschappelijke literatuur, waarbij een enkel onderzoeksartikel kan bijdragen aan meerdere dimensies (bijv. methodologie, nieuwe taken, evaluatiemetrices, benchmarks). Om deze tekortkomingen aan te pakken, stellen we TaxoAdapt voor, een raamwerk dat een door een LLM gegenereerde taxonomie dynamisch aanpast aan een gegeven corpus over meerdere dimensies. TaxoAdapt voert iteratieve hiërarchische classificatie uit, waarbij zowel de breedte als de diepte van de taxonomie wordt uitgebreid op basis van de thematische verdeling van het corpus. We demonstreren zijn state-of-the-art prestaties over een diverse reeks computerwetenschappelijke conferenties door de jaren heen om zijn vermogen te tonen om de evolutie van wetenschappelijke velden te structureren en vast te leggen. Als een multidimensionale methode genereert TaxoAdapt taxonomieën die 26,51% beter granulariteit behouden en 50,41% coherenter zijn dan de meest competitieve baseline-methoden, beoordeeld door LLMs.
English
The rapid evolution of scientific fields introduces challenges in organizing
and retrieving scientific literature. While expert-curated taxonomies have
traditionally addressed this need, the process is time-consuming and expensive.
Furthermore, recent automatic taxonomy construction methods either (1)
over-rely on a specific corpus, sacrificing generalizability, or (2) depend
heavily on the general knowledge of large language models (LLMs) contained
within their pre-training datasets, often overlooking the dynamic nature of
evolving scientific domains. Additionally, these approaches fail to account for
the multi-faceted nature of scientific literature, where a single research
paper may contribute to multiple dimensions (e.g., methodology, new tasks,
evaluation metrics, benchmarks). To address these gaps, we propose TaxoAdapt, a
framework that dynamically adapts an LLM-generated taxonomy to a given corpus
across multiple dimensions. TaxoAdapt performs iterative hierarchical
classification, expanding both the taxonomy width and depth based on corpus'
topical distribution. We demonstrate its state-of-the-art performance across a
diverse set of computer science conferences over the years to showcase its
ability to structure and capture the evolution of scientific fields. As a
multidimensional method, TaxoAdapt generates taxonomies that are 26.51% more
granularity-preserving and 50.41% more coherent than the most competitive
baselines judged by LLMs.