Busca e Refinamento Durante o Pensamento: Raciocínio Autônomo Aumentado por Recuperação em LLMs
Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs
May 16, 2025
Autores: Yaorui Shi, Shihan Li, Chang Wu, Zhiyuan Liu, Junfeng Fang, Hengxing Cai, An Zhang, Xiang Wang
cs.AI
Resumo
Modelos de linguagem de grande escala têm demonstrado capacidades impressionantes de raciocínio, mas são intrinsecamente limitados pelo seu reservatório de conhecimento. O raciocínio aumentado por recuperação mitiga essa limitação ao permitir que os LLMs consultem recursos externos, mas os métodos existentes frequentemente recuperam informações irrelevantes ou ruidosas, prejudicando o raciocínio preciso. Neste artigo, propomos o AutoRefine, um framework de pós-treinamento com aprendizado por reforço que adota um novo paradigma de "buscar-e-refinar-durante-pensar". O AutoRefine introduz etapas explícitas de refinamento de conhecimento entre chamadas de busca sucessivas, permitindo que o modelo filtre, destile e organize evidências de forma iterativa antes de gerar uma resposta. Além disso, incorporamos recompensas específicas de recuperação personalizadas juntamente com recompensas de correção de respostas, utilizando otimização de política relativa em grupo. Experimentos em benchmarks de QA de salto único e múltiplos saltos demonstram que o AutoRefine supera significativamente as abordagens existentes, particularmente em cenários complexos de raciocínio de múltiplos saltos. Análises detalhadas mostram que o AutoRefine realiza buscas frequentes e de maior qualidade, além de sintetizar evidências de forma eficaz.
English
Large language models have demonstrated impressive reasoning capabilities but
are inherently limited by their knowledge reservoir. Retrieval-augmented
reasoning mitigates this limitation by allowing LLMs to query external
resources, but existing methods often retrieve irrelevant or noisy information,
hindering accurate reasoning. In this paper, we propose AutoRefine, a
reinforcement learning post-training framework that adopts a new
``search-and-refine-during-think'' paradigm. AutoRefine introduces explicit
knowledge refinement steps between successive search calls, enabling the model
to iteratively filter, distill, and organize evidence before generating an
answer. Furthermore, we incorporate tailored retrieval-specific rewards
alongside answer correctness rewards using group relative policy optimization.
Experiments on single-hop and multi-hop QA benchmarks demonstrate that
AutoRefine significantly outperforms existing approaches, particularly in
complex, multi-hop reasoning scenarios. Detailed analysis shows that AutoRefine
issues frequent, higher-quality searches and synthesizes evidence effectively.