Búsqueda y Refinamiento Durante el Pensar: Razonamiento Autónomo Aumentado por Recuperación en Modelos de Lenguaje de Gran Escala
Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs
May 16, 2025
Autores: Yaorui Shi, Shihan Li, Chang Wu, Zhiyuan Liu, Junfeng Fang, Hengxing Cai, An Zhang, Xiang Wang
cs.AI
Resumen
Los modelos de lenguaje de gran escala han demostrado capacidades de razonamiento impresionantes, pero están intrínsecamente limitados por su reserva de conocimiento. El razonamiento aumentado por recuperación mitiga esta limitación al permitir que los LLM consulten recursos externos, pero los métodos existentes a menudo recuperan información irrelevante o ruidosa, lo que dificulta un razonamiento preciso. En este artículo, proponemos AutoRefine, un marco de aprendizaje por refuerzo posentrenamiento que adopta un nuevo paradigma de "buscar y refinar durante el pensamiento". AutoRefine introduce pasos explícitos de refinamiento de conocimiento entre llamadas de búsqueda sucesivas, permitiendo que el modelo filtre, destile y organice evidencia de manera iterativa antes de generar una respuesta. Además, incorporamos recompensas específicas de recuperación junto con recompensas de corrección de respuestas utilizando la optimización de políticas relativas por grupos. Los experimentos en benchmarks de preguntas y respuestas de un solo salto y múltiples saltos demuestran que AutoRefine supera significativamente a los enfoques existentes, particularmente en escenarios de razonamiento complejo y de múltiples saltos. Un análisis detallado muestra que AutoRefine realiza búsquedas frecuentes y de mayor calidad, y sintetiza la evidencia de manera efectiva.
English
Large language models have demonstrated impressive reasoning capabilities but
are inherently limited by their knowledge reservoir. Retrieval-augmented
reasoning mitigates this limitation by allowing LLMs to query external
resources, but existing methods often retrieve irrelevant or noisy information,
hindering accurate reasoning. In this paper, we propose AutoRefine, a
reinforcement learning post-training framework that adopts a new
``search-and-refine-during-think'' paradigm. AutoRefine introduces explicit
knowledge refinement steps between successive search calls, enabling the model
to iteratively filter, distill, and organize evidence before generating an
answer. Furthermore, we incorporate tailored retrieval-specific rewards
alongside answer correctness rewards using group relative policy optimization.
Experiments on single-hop and multi-hop QA benchmarks demonstrate that
AutoRefine significantly outperforms existing approaches, particularly in
complex, multi-hop reasoning scenarios. Detailed analysis shows that AutoRefine
issues frequent, higher-quality searches and synthesizes evidence effectively.Summary
AI-Generated Summary