ChatPaper.aiChatPaper

Recherche et Raffinement Durant la Réflexion : Raisonnement Autonome Augmenté par Récupération pour les Modèles de Langage

Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs

May 16, 2025
Auteurs: Yaorui Shi, Shihan Li, Chang Wu, Zhiyuan Liu, Junfeng Fang, Hengxing Cai, An Zhang, Xiang Wang
cs.AI

Résumé

Les grands modèles de langage ont démontré des capacités de raisonnement impressionnantes, mais sont intrinsèquement limités par leur réservoir de connaissances. Le raisonnement augmenté par la récupération d'information atténue cette limitation en permettant aux LLMs d'interroger des ressources externes, mais les méthodes existantes récupèrent souvent des informations non pertinentes ou bruyantes, entravant un raisonnement précis. Dans cet article, nous proposons AutoRefine, un cadre d'apprentissage par renforcement post-entraînement qui adopte un nouveau paradigme de « recherche-et-affinage-pendant-la-réflexion ». AutoRefine introduit des étapes explicites de raffinement des connaissances entre des appels de recherche successifs, permettant au modèle de filtrer, distiller et organiser les preuves de manière itérative avant de générer une réponse. De plus, nous intégrons des récompenses spécifiques à la récupération, adaptées et combinées avec des récompenses de justesse des réponses, en utilisant l'optimisation de politique relative par groupe. Les expériences sur des benchmarks de questions-réponses à un saut et à plusieurs sauts montrent qu'AutoRefine surpasse significativement les approches existantes, en particulier dans des scénarios de raisonnement complexes et multi-sauts. Une analyse détaillée révèle qu'AutoRefine effectue des recherches plus fréquentes et de meilleure qualité, tout en synthétisant efficacement les preuves.
English
Large language models have demonstrated impressive reasoning capabilities but are inherently limited by their knowledge reservoir. Retrieval-augmented reasoning mitigates this limitation by allowing LLMs to query external resources, but existing methods often retrieve irrelevant or noisy information, hindering accurate reasoning. In this paper, we propose AutoRefine, a reinforcement learning post-training framework that adopts a new ``search-and-refine-during-think'' paradigm. AutoRefine introduces explicit knowledge refinement steps between successive search calls, enabling the model to iteratively filter, distill, and organize evidence before generating an answer. Furthermore, we incorporate tailored retrieval-specific rewards alongside answer correctness rewards using group relative policy optimization. Experiments on single-hop and multi-hop QA benchmarks demonstrate that AutoRefine significantly outperforms existing approaches, particularly in complex, multi-hop reasoning scenarios. Detailed analysis shows that AutoRefine issues frequent, higher-quality searches and synthesizes evidence effectively.

Summary

AI-Generated Summary

PDF51May 28, 2025