ChatPaper.aiChatPaper

TaxoAdapt: Согласование многомерного построения таксономии на основе LLM с развивающимися исследовательскими корпусами

TaxoAdapt: Aligning LLM-Based Multidimensional Taxonomy Construction to Evolving Research Corpora

June 12, 2025
Авторы: Priyanka Kargupta, Nan Zhang, Yunyi Zhang, Rui Zhang, Prasenjit Mitra, Jiawei Han
cs.AI

Аннотация

Быстрое развитие научных областей создает сложности в организации и поиске научной литературы. Хотя традиционно эту потребность удовлетворяли экспертно-курируемые таксономии, этот процесс является трудоемким и дорогостоящим. Более того, современные методы автоматического построения таксономий либо (1) чрезмерно зависят от конкретного корпуса, жертвуя обобщаемостью, либо (2) в значительной степени опираются на общие знания крупных языковых моделей (LLM), содержащиеся в их предварительно обученных наборах данных, часто упуская из виду динамическую природу развивающихся научных областей. Кроме того, эти подходы не учитывают многогранный характер научной литературы, где одна исследовательская работа может вносить вклад в несколько измерений (например, методология, новые задачи, метрики оценки, бенчмарки). Для устранения этих пробелов мы предлагаем TaxoAdapt — фреймворк, который динамически адаптирует таксономию, сгенерированную LLM, к заданному корпусу по нескольким измерениям. TaxoAdapt выполняет итеративную иерархическую классификацию, расширяя как ширину, так и глубину таксономии на основе тематического распределения корпуса. Мы демонстрируем его передовую производительность на разнообразных наборах данных конференций по компьютерным наукам за разные годы, чтобы показать его способность структурировать и отражать эволюцию научных областей. Как многомерный метод, TaxoAdapt генерирует таксономии, которые на 26,51% лучше сохраняют гранулярность и на 50,41% более согласованы, чем наиболее конкурентоспособные базовые методы, оцененные LLM.
English
The rapid evolution of scientific fields introduces challenges in organizing and retrieving scientific literature. While expert-curated taxonomies have traditionally addressed this need, the process is time-consuming and expensive. Furthermore, recent automatic taxonomy construction methods either (1) over-rely on a specific corpus, sacrificing generalizability, or (2) depend heavily on the general knowledge of large language models (LLMs) contained within their pre-training datasets, often overlooking the dynamic nature of evolving scientific domains. Additionally, these approaches fail to account for the multi-faceted nature of scientific literature, where a single research paper may contribute to multiple dimensions (e.g., methodology, new tasks, evaluation metrics, benchmarks). To address these gaps, we propose TaxoAdapt, a framework that dynamically adapts an LLM-generated taxonomy to a given corpus across multiple dimensions. TaxoAdapt performs iterative hierarchical classification, expanding both the taxonomy width and depth based on corpus' topical distribution. We demonstrate its state-of-the-art performance across a diverse set of computer science conferences over the years to showcase its ability to structure and capture the evolution of scientific fields. As a multidimensional method, TaxoAdapt generates taxonomies that are 26.51% more granularity-preserving and 50.41% more coherent than the most competitive baselines judged by LLMs.
PDF22June 13, 2025