ChatPaper.aiChatPaper

TaxoAdapt : Alignement de la construction de taxonomies multidimensionnelles basées sur des LLM aux corpus de recherche en évolution

TaxoAdapt: Aligning LLM-Based Multidimensional Taxonomy Construction to Evolving Research Corpora

June 12, 2025
Auteurs: Priyanka Kargupta, Nan Zhang, Yunyi Zhang, Rui Zhang, Prasenjit Mitra, Jiawei Han
cs.AI

Résumé

L'évolution rapide des domaines scientifiques introduit des défis dans l'organisation et la récupération de la littérature scientifique. Bien que les taxonomies expertes aient traditionnellement répondu à ce besoin, le processus est long et coûteux. De plus, les méthodes récentes de construction automatique de taxonomies soit (1) s'appuient excessivement sur un corpus spécifique, sacrifiant ainsi la généralisabilité, soit (2) dépendent fortement des connaissances générales des grands modèles de langage (LLMs) contenues dans leurs jeux de données de pré-entraînement, négligeant souvent la nature dynamique des domaines scientifiques en évolution. En outre, ces approches ne tiennent pas compte de la nature multidimensionnelle de la littérature scientifique, où un seul article de recherche peut contribuer à plusieurs dimensions (par exemple, méthodologie, nouvelles tâches, métriques d'évaluation, benchmarks). Pour combler ces lacunes, nous proposons TaxoAdapt, un cadre qui adapte dynamiquement une taxonomie générée par un LLM à un corpus donné à travers plusieurs dimensions. TaxoAdapt effectue une classification hiérarchique itérative, élargissant à la fois la largeur et la profondeur de la taxonomie en fonction de la distribution thématique du corpus. Nous démontrons ses performances de pointe à travers un ensemble diversifié de conférences en informatique au fil des années, mettant en évidence sa capacité à structurer et à capturer l'évolution des domaines scientifiques. En tant que méthode multidimensionnelle, TaxoAdapt génère des taxonomies qui préservent 26,51 % de granularité en plus et sont 50,41 % plus cohérentes que les bases de référence les plus compétitives évaluées par les LLMs.
English
The rapid evolution of scientific fields introduces challenges in organizing and retrieving scientific literature. While expert-curated taxonomies have traditionally addressed this need, the process is time-consuming and expensive. Furthermore, recent automatic taxonomy construction methods either (1) over-rely on a specific corpus, sacrificing generalizability, or (2) depend heavily on the general knowledge of large language models (LLMs) contained within their pre-training datasets, often overlooking the dynamic nature of evolving scientific domains. Additionally, these approaches fail to account for the multi-faceted nature of scientific literature, where a single research paper may contribute to multiple dimensions (e.g., methodology, new tasks, evaluation metrics, benchmarks). To address these gaps, we propose TaxoAdapt, a framework that dynamically adapts an LLM-generated taxonomy to a given corpus across multiple dimensions. TaxoAdapt performs iterative hierarchical classification, expanding both the taxonomy width and depth based on corpus' topical distribution. We demonstrate its state-of-the-art performance across a diverse set of computer science conferences over the years to showcase its ability to structure and capture the evolution of scientific fields. As a multidimensional method, TaxoAdapt generates taxonomies that are 26.51% more granularity-preserving and 50.41% more coherent than the most competitive baselines judged by LLMs.
PDF22June 13, 2025