Ricerca e Affinamento Durante il Pensiero: Ragionamento Autonomo Aumentato dal Recupero nei Modelli Linguistici di Grande Dimensione
Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs
May 16, 2025
Autori: Yaorui Shi, Shihan Li, Chang Wu, Zhiyuan Liu, Junfeng Fang, Hengxing Cai, An Zhang, Xiang Wang
cs.AI
Abstract
I grandi modelli linguistici hanno dimostrato impressionanti capacità di ragionamento, ma sono intrinsecamente limitati dal loro serbatoio di conoscenze. Il ragionamento potenziato dal retrieval mitiga questa limitazione consentendo ai LLM di interrogare risorse esterne, ma i metodi esistenti spesso recuperano informazioni irrilevanti o rumorose, ostacolando un ragionamento accurato. In questo articolo, proponiamo AutoRefine, un framework di post-addestramento basato su apprendimento per rinforzo che adotta un nuovo paradigma di "ricerca e raffinamento durante il pensiero". AutoRefine introduce espliciti passaggi di raffinamento della conoscenza tra chiamate di ricerca successive, consentendo al modello di filtrare, distillare e organizzare le prove in modo iterativo prima di generare una risposta. Inoltre, incorporiamo ricompense specifiche per il retrieval insieme a ricompense per la correttezza delle risposte utilizzando l'ottimizzazione relativa delle politiche di gruppo. Esperimenti su benchmark di QA a singolo e multi-hop dimostrano che AutoRefine supera significativamente gli approcci esistenti, in particolare negli scenari di ragionamento complesso e multi-hop. Un'analisi dettagliata mostra che AutoRefine effettua ricerche frequenti e di qualità superiore, sintetizzando efficacemente le prove.
English
Large language models have demonstrated impressive reasoning capabilities but
are inherently limited by their knowledge reservoir. Retrieval-augmented
reasoning mitigates this limitation by allowing LLMs to query external
resources, but existing methods often retrieve irrelevant or noisy information,
hindering accurate reasoning. In this paper, we propose AutoRefine, a
reinforcement learning post-training framework that adopts a new
``search-and-refine-during-think'' paradigm. AutoRefine introduces explicit
knowledge refinement steps between successive search calls, enabling the model
to iteratively filter, distill, and organize evidence before generating an
answer. Furthermore, we incorporate tailored retrieval-specific rewards
alongside answer correctness rewards using group relative policy optimization.
Experiments on single-hop and multi-hop QA benchmarks demonstrate that
AutoRefine significantly outperforms existing approaches, particularly in
complex, multi-hop reasoning scenarios. Detailed analysis shows that AutoRefine
issues frequent, higher-quality searches and synthesizes evidence effectively.