ChatPaper.aiChatPaper

TaxoAdapt: 進化する研究コーパスに適応したLLMベースの多次元分類体系構築の整合化

TaxoAdapt: Aligning LLM-Based Multidimensional Taxonomy Construction to Evolving Research Corpora

June 12, 2025
著者: Priyanka Kargupta, Nan Zhang, Yunyi Zhang, Rui Zhang, Prasenjit Mitra, Jiawei Han
cs.AI

要旨

科学分野の急速な進化は、科学文献の整理と検索における課題を引き起こしている。専門家によるキュレーションに基づく分類体系は従来このニーズに対応してきたが、そのプロセスは時間とコストを要する。さらに、最近の自動分類体系構築手法は、(1)特定のコーパスに過度に依存し汎用性を犠牲にするか、(2)大規模言語モデル(LLM)の事前学習データセットに含まれる一般的な知識に大きく依存し、進化する科学分野の動的な性質を見落とす傾向がある。加えて、これらのアプローチは、単一の研究論文が複数の次元(例えば、方法論、新たなタスク、評価指標、ベンチマーク)に貢献する可能性があるという科学文献の多面的な性質を考慮していない。これらのギャップを埋めるため、我々はTaxoAdaptを提案する。これは、LLMが生成した分類体系を特定のコーパスに合わせて多次元的に動的に適応させるフレームワークである。TaxoAdaptは、コーパスのトピック分布に基づいて分類体系の幅と深さを拡張する反復的な階層分類を実行する。我々は、その最新の性能を多様なコンピュータサイエンス会議のデータセットで実証し、科学分野の進化を構造化し捉える能力を示す。多次元的手法として、TaxoAdaptは、LLMによって評価された最も競争力のあるベースラインと比較して、26.51%より粒度を保持し、50.41%より一貫性のある分類体系を生成する。
English
The rapid evolution of scientific fields introduces challenges in organizing and retrieving scientific literature. While expert-curated taxonomies have traditionally addressed this need, the process is time-consuming and expensive. Furthermore, recent automatic taxonomy construction methods either (1) over-rely on a specific corpus, sacrificing generalizability, or (2) depend heavily on the general knowledge of large language models (LLMs) contained within their pre-training datasets, often overlooking the dynamic nature of evolving scientific domains. Additionally, these approaches fail to account for the multi-faceted nature of scientific literature, where a single research paper may contribute to multiple dimensions (e.g., methodology, new tasks, evaluation metrics, benchmarks). To address these gaps, we propose TaxoAdapt, a framework that dynamically adapts an LLM-generated taxonomy to a given corpus across multiple dimensions. TaxoAdapt performs iterative hierarchical classification, expanding both the taxonomy width and depth based on corpus' topical distribution. We demonstrate its state-of-the-art performance across a diverse set of computer science conferences over the years to showcase its ability to structure and capture the evolution of scientific fields. As a multidimensional method, TaxoAdapt generates taxonomies that are 26.51% more granularity-preserving and 50.41% more coherent than the most competitive baselines judged by LLMs.
PDF22June 13, 2025