TaxoAdapt: Allineamento della Costruzione di Tassonomie Multidimensionali Basate su LLM ai Corpora di Ricerca in Evoluzione
TaxoAdapt: Aligning LLM-Based Multidimensional Taxonomy Construction to Evolving Research Corpora
June 12, 2025
Autori: Priyanka Kargupta, Nan Zhang, Yunyi Zhang, Rui Zhang, Prasenjit Mitra, Jiawei Han
cs.AI
Abstract
La rapida evoluzione dei campi scientifici introduce sfide nell'organizzazione e nel recupero della letteratura scientifica. Sebbene le tassonomie curate da esperti abbiano tradizionalmente affrontato questa esigenza, il processo è dispendioso in termini di tempo e costoso. Inoltre, i recenti metodi automatici di costruzione delle tassonomie (1) si affidano eccessivamente a un corpus specifico, sacrificando la generalizzabilità, o (2) dipendono fortemente dalla conoscenza generale dei grandi modelli linguistici (LLM) contenuta nei loro dataset di pre-addestramento, spesso trascurando la natura dinamica dei domini scientifici in evoluzione. In aggiunta, questi approcci non tengono conto della natura multidimensionale della letteratura scientifica, in cui un singolo articolo di ricerca può contribuire a più dimensioni (ad esempio, metodologia, nuovi compiti, metriche di valutazione, benchmark). Per colmare queste lacune, proponiamo TaxoAdapt, un framework che adatta dinamicamente una tassonomia generata da LLM a un determinato corpus attraverso più dimensioni. TaxoAdapt esegue una classificazione gerarchica iterativa, espandendo sia la larghezza che la profondità della tassonomia in base alla distribuzione tematica del corpus. Dimostriamo le sue prestazioni all'avanguardia su un insieme diversificato di conferenze di informatica nel corso degli anni, evidenziando la sua capacità di strutturare e catturare l'evoluzione dei campi scientifici. Come metodo multidimensionale, TaxoAdapt genera tassonomie che preservano il 26,51% in più di granularità e sono il 50,41% più coerenti rispetto ai baseline più competitivi valutati da LLM.
English
The rapid evolution of scientific fields introduces challenges in organizing
and retrieving scientific literature. While expert-curated taxonomies have
traditionally addressed this need, the process is time-consuming and expensive.
Furthermore, recent automatic taxonomy construction methods either (1)
over-rely on a specific corpus, sacrificing generalizability, or (2) depend
heavily on the general knowledge of large language models (LLMs) contained
within their pre-training datasets, often overlooking the dynamic nature of
evolving scientific domains. Additionally, these approaches fail to account for
the multi-faceted nature of scientific literature, where a single research
paper may contribute to multiple dimensions (e.g., methodology, new tasks,
evaluation metrics, benchmarks). To address these gaps, we propose TaxoAdapt, a
framework that dynamically adapts an LLM-generated taxonomy to a given corpus
across multiple dimensions. TaxoAdapt performs iterative hierarchical
classification, expanding both the taxonomy width and depth based on corpus'
topical distribution. We demonstrate its state-of-the-art performance across a
diverse set of computer science conferences over the years to showcase its
ability to structure and capture the evolution of scientific fields. As a
multidimensional method, TaxoAdapt generates taxonomies that are 26.51% more
granularity-preserving and 50.41% more coherent than the most competitive
baselines judged by LLMs.