TaxoAdapt: 진화하는 연구 코퍼스에 맞춰진 LLM 기반 다차원 분류 체계 구축
TaxoAdapt: Aligning LLM-Based Multidimensional Taxonomy Construction to Evolving Research Corpora
June 12, 2025
저자: Priyanka Kargupta, Nan Zhang, Yunyi Zhang, Rui Zhang, Prasenjit Mitra, Jiawei Han
cs.AI
초록
과학 분야의 급속한 발전은 과학 문헌을 조직화하고 검색하는 데 있어 도전 과제를 제시한다. 전문가가 주도적으로 구축한 분류 체계가 전통적으로 이러한 필요를 충족시켜 왔지만, 이 과정은 시간이 많이 소요되고 비용이 많이 든다. 더욱이 최근의 자동 분류 체계 구축 방법들은 (1) 특정 코퍼스에 지나치게 의존하여 일반화 가능성을 희생하거나, (2) 대규모 언어 모델(LLM)의 사전 학습 데이터셋에 포함된 일반 지식에 크게 의존함으로써, 진화하는 과학 분야의 동적 특성을 종종 간과한다. 또한, 이러한 접근법들은 과학 문헌의 다면적 특성을 고려하지 못하는데, 단일 연구 논문이 여러 차원(예: 방법론, 새로운 과제, 평가 지표, 벤치마크)에 기여할 수 있기 때문이다. 이러한 격차를 해결하기 위해, 우리는 TaxoAdapt를 제안한다. 이 프레임워크는 주어진 코퍼스에 대해 LLM이 생성한 분류 체계를 여러 차원에 걸쳐 동적으로 적응시킨다. TaxoAdapt는 반복적인 계층적 분류를 수행하며, 코퍼스의 주제 분포를 기반으로 분류 체계의 폭과 깊이를 확장한다. 우리는 다양한 컴퓨터 과학 학회에서의 최신 성능을 입증하여, 과학 분야의 진화를 구조화하고 포착하는 능력을 보여준다. 다차원적 방법으로서, TaxoAdapt는 LLM에 의해 평가된 가장 경쟁력 있는 기준선보다 26.51% 더 세분화를 보존하고 50.41% 더 일관된 분류 체계를 생성한다.
English
The rapid evolution of scientific fields introduces challenges in organizing
and retrieving scientific literature. While expert-curated taxonomies have
traditionally addressed this need, the process is time-consuming and expensive.
Furthermore, recent automatic taxonomy construction methods either (1)
over-rely on a specific corpus, sacrificing generalizability, or (2) depend
heavily on the general knowledge of large language models (LLMs) contained
within their pre-training datasets, often overlooking the dynamic nature of
evolving scientific domains. Additionally, these approaches fail to account for
the multi-faceted nature of scientific literature, where a single research
paper may contribute to multiple dimensions (e.g., methodology, new tasks,
evaluation metrics, benchmarks). To address these gaps, we propose TaxoAdapt, a
framework that dynamically adapts an LLM-generated taxonomy to a given corpus
across multiple dimensions. TaxoAdapt performs iterative hierarchical
classification, expanding both the taxonomy width and depth based on corpus'
topical distribution. We demonstrate its state-of-the-art performance across a
diverse set of computer science conferences over the years to showcase its
ability to structure and capture the evolution of scientific fields. As a
multidimensional method, TaxoAdapt generates taxonomies that are 26.51% more
granularity-preserving and 50.41% more coherent than the most competitive
baselines judged by LLMs.