ChatPaper.aiChatPaper

PaperRegister: Улучшение гибкого поиска научных статей с помощью иерархической индексации регистров

PaperRegister: Boosting Flexible-grained Paper Search via Hierarchical Register Indexing

August 14, 2025
Авторы: Zhuoqun Li, Xuanang Chen, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun
cs.AI

Аннотация

Поиск научных статей является важной задачей для исследователей, которая обычно включает использование запроса с описанием темы для нахождения соответствующих статей. По мере углубления исследований требования к поиску статей могут становиться более гибкими, иногда включая конкретные детали, такие как конфигурация модулей, вместо ограничения лишь общими темами. Однако существующие системы поиска статей не способны удовлетворить эти гибкие требования, поскольку они в основном собирают аннотации статей для построения индекса корпуса, что не позволяет поддерживать поиск по более детализированным запросам. В данной работе мы предлагаем PaperRegister, состоящий из оффлайн-иерархической индексации и онлайн-адаптивного поиска, который преобразует традиционный индекс на основе аннотаций в иерархическое дерево индексов для поиска статей, тем самым поддерживая запросы на различных уровнях детализации. Эксперименты на задачах поиска статей с различной степенью детализации демонстрируют, что PaperRegister достигает наилучших результатов, особенно выделяясь в сценариях с высокой детализацией, что подчеркивает его потенциал как эффективного решения для гибкого поиска статей в реальных приложениях. Код для данной работы доступен по адресу: https://github.com/Li-Z-Q/PaperRegister.
English
Paper search is an important activity for researchers, typically involving using a query with description of a topic to find relevant papers. As research deepens, paper search requirements may become more flexible, sometimes involving specific details such as module configuration rather than being limited to coarse-grained topics. However, previous paper search systems are unable to meet these flexible-grained requirements, as these systems mainly collect paper abstracts to construct index of corpus, which lack detailed information to support retrieval by finer-grained queries. In this work, we propose PaperRegister, consisted of offline hierarchical indexing and online adaptive retrieval, transforming traditional abstract-based index into hierarchical index tree for paper search, thereby supporting queries at flexible granularity. Experiments on paper search tasks across a range of granularity demonstrate that PaperRegister achieves the state-of-the-art performance, and particularly excels in fine-grained scenarios, highlighting the good potential as an effective solution for flexible-grained paper search in real-world applications. Code for this work is in https://github.com/Li-Z-Q/PaperRegister.
PDF223August 18, 2025