TaxoAdapt: Alinhando a Construção de Taxonomias Multidimensionais Baseadas em LLM a Corpora de Pesquisa em Evolução
TaxoAdapt: Aligning LLM-Based Multidimensional Taxonomy Construction to Evolving Research Corpora
June 12, 2025
Autores: Priyanka Kargupta, Nan Zhang, Yunyi Zhang, Rui Zhang, Prasenjit Mitra, Jiawei Han
cs.AI
Resumo
A rápida evolução das áreas científicas introduz desafios na organização e recuperação da literatura científica. Embora taxonomias curadas por especialistas tenham tradicionalmente atendido a essa necessidade, o processo é demorado e caro. Além disso, os métodos recentes de construção automática de taxonomias ou (1) dependem excessivamente de um corpus específico, sacrificando a generalização, ou (2) dependem fortemente do conhecimento geral dos grandes modelos de linguagem (LLMs) contidos em seus conjuntos de dados de pré-treinamento, muitas vezes negligenciando a natureza dinâmica dos domínios científicos em evolução. Adicionalmente, essas abordagens não levam em consideração a natureza multifacetada da literatura científica, onde um único artigo de pesquisa pode contribuir para múltiplas dimensões (por exemplo, metodologia, novas tarefas, métricas de avaliação, benchmarks). Para abordar essas lacunas, propomos o TaxoAdapt, um framework que adapta dinamicamente uma taxonomia gerada por LLM a um determinado corpus em múltiplas dimensões. O TaxoAdapt realiza classificação hierárquica iterativa, expandindo tanto a largura quanto a profundidade da taxonomia com base na distribuição temática do corpus. Demonstramos seu desempenho de ponta em um conjunto diversificado de conferências de ciência da computação ao longo dos anos para mostrar sua capacidade de estruturar e capturar a evolução das áreas científicas. Como um método multidimensional, o TaxoAdapt gera taxonomias que são 26,51% mais preservadoras de granularidade e 50,41% mais coerentes do que as linhas de base mais competitivas avaliadas por LLMs.
English
The rapid evolution of scientific fields introduces challenges in organizing
and retrieving scientific literature. While expert-curated taxonomies have
traditionally addressed this need, the process is time-consuming and expensive.
Furthermore, recent automatic taxonomy construction methods either (1)
over-rely on a specific corpus, sacrificing generalizability, or (2) depend
heavily on the general knowledge of large language models (LLMs) contained
within their pre-training datasets, often overlooking the dynamic nature of
evolving scientific domains. Additionally, these approaches fail to account for
the multi-faceted nature of scientific literature, where a single research
paper may contribute to multiple dimensions (e.g., methodology, new tasks,
evaluation metrics, benchmarks). To address these gaps, we propose TaxoAdapt, a
framework that dynamically adapts an LLM-generated taxonomy to a given corpus
across multiple dimensions. TaxoAdapt performs iterative hierarchical
classification, expanding both the taxonomy width and depth based on corpus'
topical distribution. We demonstrate its state-of-the-art performance across a
diverse set of computer science conferences over the years to showcase its
ability to structure and capture the evolution of scientific fields. As a
multidimensional method, TaxoAdapt generates taxonomies that are 26.51% more
granularity-preserving and 50.41% more coherent than the most competitive
baselines judged by LLMs.