PaperRegister: Mejora de la Búsqueda de Artículos con Granularidad Flexible mediante Indexación Jerárquica de Registros
PaperRegister: Boosting Flexible-grained Paper Search via Hierarchical Register Indexing
August 14, 2025
Autores: Zhuoqun Li, Xuanang Chen, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun
cs.AI
Resumen
La búsqueda de artículos es una actividad importante para los investigadores, que generalmente implica utilizar una consulta con la descripción de un tema para encontrar artículos relevantes. A medida que la investigación se profundiza, los requisitos de búsqueda de artículos pueden volverse más flexibles, a veces involucrando detalles específicos como la configuración de módulos en lugar de limitarse a temas de grano grueso. Sin embargo, los sistemas anteriores de búsqueda de artículos no pueden satisfacer estos requisitos de grano flexible, ya que estos sistemas principalmente recopilan resúmenes de artículos para construir un índice del corpus, lo que carece de información detallada para apoyar la recuperación mediante consultas de grano más fino. En este trabajo, proponemos PaperRegister, que consiste en indexación jerárquica fuera de línea y recuperación adaptativa en línea, transformando el índice tradicional basado en resúmenes en un árbol de índice jerárquico para la búsqueda de artículos, apoyando así consultas en granularidad flexible. Los experimentos en tareas de búsqueda de artículos en un rango de granularidad demuestran que PaperRegister alcanza un rendimiento de vanguardia, y particularmente sobresale en escenarios de grano fino, destacando el buen potencial como una solución efectiva para la búsqueda de artículos de grano flexible en aplicaciones del mundo real. El código de este trabajo se encuentra en https://github.com/Li-Z-Q/PaperRegister.
English
Paper search is an important activity for researchers, typically involving
using a query with description of a topic to find relevant papers. As research
deepens, paper search requirements may become more flexible, sometimes
involving specific details such as module configuration rather than being
limited to coarse-grained topics. However, previous paper search systems are
unable to meet these flexible-grained requirements, as these systems mainly
collect paper abstracts to construct index of corpus, which lack detailed
information to support retrieval by finer-grained queries. In this work, we
propose PaperRegister, consisted of offline hierarchical indexing and online
adaptive retrieval, transforming traditional abstract-based index into
hierarchical index tree for paper search, thereby supporting queries at
flexible granularity. Experiments on paper search tasks across a range of
granularity demonstrate that PaperRegister achieves the state-of-the-art
performance, and particularly excels in fine-grained scenarios, highlighting
the good potential as an effective solution for flexible-grained paper search
in real-world applications. Code for this work is in
https://github.com/Li-Z-Q/PaperRegister.