SPAR: Recuperação de Artigos Acadêmicos com Agentes Baseados em LLM para Busca Acadêmica Aprimorada
SPAR: Scholar Paper Retrieval with LLM-based Agents for Enhanced Academic Search
July 21, 2025
Autores: Xiaofeng Shi, Yuduo Li, Qian Kou, Longbin Yu, Jinxin Xie, Hua Zhou
cs.AI
Resumo
Os recentes avanços em modelos de linguagem de grande escala (LLMs) abriram novas oportunidades para a recuperação de literatura acadêmica. No entanto, os sistemas existentes frequentemente dependem de pipelines rígidos e exibem capacidades limitadas de raciocínio. Apresentamos o SPAR, uma estrutura multiagente que incorpora a decomposição de consultas baseada em RefChain e a evolução de consultas para permitir uma busca mais flexível e eficaz. Para facilitar a avaliação sistemática, também construímos o SPARBench, um benchmark desafiador com rótulos de relevância anotados por especialistas. Os resultados experimentais demonstram que o SPAR supera substancialmente as linhas de base fortes, alcançando até +56% de F1 no AutoScholar e +23% de F1 no SPARBench em relação à linha de base de melhor desempenho. Juntos, o SPAR e o SPARBench fornecem uma base escalável, interpretável e de alto desempenho para avançar a pesquisa em recuperação acadêmica. O código e os dados estarão disponíveis em: https://github.com/xiaofengShi/SPAR.
English
Recent advances in large language models (LLMs) have opened new opportunities
for academic literature retrieval. However, existing systems often rely on
rigid pipelines and exhibit limited reasoning capabilities. We introduce SPAR,
a multi-agent framework that incorporates RefChain-based query decomposition
and query evolution to enable more flexible and effective search. To facilitate
systematic evaluation, we also construct SPARBench, a challenging benchmark
with expert-annotated relevance labels. Experimental results demonstrate that
SPAR substantially outperforms strong baselines, achieving up to +56% F1 on
AutoScholar and +23% F1 on SPARBench over the best-performing baseline.
Together, SPAR and SPARBench provide a scalable, interpretable, and
high-performing foundation for advancing research in scholarly retrieval. Code
and data will be available at: https://github.com/xiaofengShi/SPAR