PaperRegister: Potenziamento della Ricerca Flessibile di Articoli Scientifici tramite Indicizzazione Gerarchica dei Registri
PaperRegister: Boosting Flexible-grained Paper Search via Hierarchical Register Indexing
August 14, 2025
Autori: Zhuoqun Li, Xuanang Chen, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun
cs.AI
Abstract
La ricerca di articoli scientifici è un'attività importante per i ricercatori, che tipicamente implica l'uso di una query con la descrizione di un argomento per trovare articoli rilevanti. Man mano che la ricerca si approfondisce, i requisiti di ricerca degli articoli possono diventare più flessibili, a volte coinvolgendo dettagli specifici come la configurazione di un modulo, piuttosto che limitarsi a tematiche di ampio respiro. Tuttavia, i precedenti sistemi di ricerca di articoli non sono in grado di soddisfare questi requisiti a granularità flessibile, poiché questi sistemi raccolgono principalmente gli abstract degli articoli per costruire un indice del corpus, che manca di informazioni dettagliate per supportare il recupero tramite query a granularità più fine. In questo lavoro, proponiamo PaperRegister, composto da indicizzazione gerarchica offline e recupero adattivo online, che trasforma l'indice tradizionale basato sugli abstract in un albero di indici gerarchici per la ricerca di articoli, supportando così query a granularità flessibile. Esperimenti su compiti di ricerca di articoli su una gamma di granularità dimostrano che PaperRegister raggiunge prestazioni all'avanguardia, e si distingue particolarmente in scenari a granularità fine, evidenziando il buon potenziale come soluzione efficace per la ricerca di articoli a granularità flessibile in applicazioni reali. Il codice per questo lavoro è disponibile su https://github.com/Li-Z-Q/PaperRegister.
English
Paper search is an important activity for researchers, typically involving
using a query with description of a topic to find relevant papers. As research
deepens, paper search requirements may become more flexible, sometimes
involving specific details such as module configuration rather than being
limited to coarse-grained topics. However, previous paper search systems are
unable to meet these flexible-grained requirements, as these systems mainly
collect paper abstracts to construct index of corpus, which lack detailed
information to support retrieval by finer-grained queries. In this work, we
propose PaperRegister, consisted of offline hierarchical indexing and online
adaptive retrieval, transforming traditional abstract-based index into
hierarchical index tree for paper search, thereby supporting queries at
flexible granularity. Experiments on paper search tasks across a range of
granularity demonstrate that PaperRegister achieves the state-of-the-art
performance, and particularly excels in fine-grained scenarios, highlighting
the good potential as an effective solution for flexible-grained paper search
in real-world applications. Code for this work is in
https://github.com/Li-Z-Q/PaperRegister.