TaxoAdapt: Alineación de la Construcción de Taxonomías Multidimensionales Basadas en LLM con Corpora de Investigación en Evolución

Resumen

La rápida evolución de los campos científicos introduce desafíos en la organización y recuperación de la literatura científica. Si bien las taxonomías curadas por expertos han abordado tradicionalmente esta necesidad, el proceso es lento y costoso. Además, los métodos recientes de construcción automática de taxonomías (1) dependen en exceso de un corpus específico, sacrificando la generalización, o (2) se apoyan demasiado en el conocimiento general de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) contenidos en sus conjuntos de datos de preentrenamiento, a menudo pasando por alto la naturaleza dinámica de los dominios científicos en evolución. Asimismo, estos enfoques no tienen en cuenta la naturaleza multifacética de la literatura científica, donde un solo artículo de investigación puede contribuir a múltiples dimensiones (por ejemplo, metodología, nuevas tareas, métricas de evaluación, puntos de referencia). Para abordar estas brechas, proponemos TaxoAdapt, un marco que adapta dinámicamente una taxonomía generada por un LLM a un corpus dado a través de múltiples dimensiones. TaxoAdapt realiza una clasificación jerárquica iterativa, expandiendo tanto la amplitud como la profundidad de la taxonomía en función de la distribución temática del corpus. Demostramos su rendimiento de vanguardia en un conjunto diverso de conferencias de informática a lo largo de los años para mostrar su capacidad para estructurar y capturar la evolución de los campos científicos. Como método multidimensional, TaxoAdapt genera taxonomías que preservan un 26,51% más la granularidad y son un 50,41% más coherentes que las líneas base más competitivas evaluadas por LLMs.

English

The rapid evolution of scientific fields introduces challenges in organizing and retrieving scientific literature. While expert-curated taxonomies have traditionally addressed this need, the process is time-consuming and expensive. Furthermore, recent automatic taxonomy construction methods either (1) over-rely on a specific corpus, sacrificing generalizability, or (2) depend heavily on the general knowledge of large language models (LLMs) contained within their pre-training datasets, often overlooking the dynamic nature of evolving scientific domains. Additionally, these approaches fail to account for the multi-faceted nature of scientific literature, where a single research paper may contribute to multiple dimensions (e.g., methodology, new tasks, evaluation metrics, benchmarks). To address these gaps, we propose TaxoAdapt, a framework that dynamically adapts an LLM-generated taxonomy to a given corpus across multiple dimensions. TaxoAdapt performs iterative hierarchical classification, expanding both the taxonomy width and depth based on corpus' topical distribution. We demonstrate its state-of-the-art performance across a diverse set of computer science conferences over the years to showcase its ability to structure and capture the evolution of scientific fields. As a multidimensional method, TaxoAdapt generates taxonomies that are 26.51% more granularity-preserving and 50.41% more coherent than the most competitive baselines judged by LLMs.