TaxoAdapt: Alineación de la Construcción de Taxonomías Multidimensionales Basadas en LLM con Corpora de Investigación en Evolución
TaxoAdapt: Aligning LLM-Based Multidimensional Taxonomy Construction to Evolving Research Corpora
June 12, 2025
Autores: Priyanka Kargupta, Nan Zhang, Yunyi Zhang, Rui Zhang, Prasenjit Mitra, Jiawei Han
cs.AI
Resumen
La rápida evolución de los campos científicos introduce desafíos en la organización y recuperación de la literatura científica. Si bien las taxonomías curadas por expertos han abordado tradicionalmente esta necesidad, el proceso es lento y costoso. Además, los métodos recientes de construcción automática de taxonomías (1) dependen en exceso de un corpus específico, sacrificando la generalización, o (2) se apoyan demasiado en el conocimiento general de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) contenidos en sus conjuntos de datos de preentrenamiento, a menudo pasando por alto la naturaleza dinámica de los dominios científicos en evolución. Asimismo, estos enfoques no tienen en cuenta la naturaleza multifacética de la literatura científica, donde un solo artículo de investigación puede contribuir a múltiples dimensiones (por ejemplo, metodología, nuevas tareas, métricas de evaluación, puntos de referencia). Para abordar estas brechas, proponemos TaxoAdapt, un marco que adapta dinámicamente una taxonomía generada por un LLM a un corpus dado a través de múltiples dimensiones. TaxoAdapt realiza una clasificación jerárquica iterativa, expandiendo tanto la amplitud como la profundidad de la taxonomía en función de la distribución temática del corpus. Demostramos su rendimiento de vanguardia en un conjunto diverso de conferencias de informática a lo largo de los años para mostrar su capacidad para estructurar y capturar la evolución de los campos científicos. Como método multidimensional, TaxoAdapt genera taxonomías que preservan un 26,51% más la granularidad y son un 50,41% más coherentes que las líneas base más competitivas evaluadas por LLMs.
English
The rapid evolution of scientific fields introduces challenges in organizing
and retrieving scientific literature. While expert-curated taxonomies have
traditionally addressed this need, the process is time-consuming and expensive.
Furthermore, recent automatic taxonomy construction methods either (1)
over-rely on a specific corpus, sacrificing generalizability, or (2) depend
heavily on the general knowledge of large language models (LLMs) contained
within their pre-training datasets, often overlooking the dynamic nature of
evolving scientific domains. Additionally, these approaches fail to account for
the multi-faceted nature of scientific literature, where a single research
paper may contribute to multiple dimensions (e.g., methodology, new tasks,
evaluation metrics, benchmarks). To address these gaps, we propose TaxoAdapt, a
framework that dynamically adapts an LLM-generated taxonomy to a given corpus
across multiple dimensions. TaxoAdapt performs iterative hierarchical
classification, expanding both the taxonomy width and depth based on corpus'
topical distribution. We demonstrate its state-of-the-art performance across a
diverse set of computer science conferences over the years to showcase its
ability to structure and capture the evolution of scientific fields. As a
multidimensional method, TaxoAdapt generates taxonomies that are 26.51% more
granularity-preserving and 50.41% more coherent than the most competitive
baselines judged by LLMs.