ChatPaper.aiChatPaper

Ricerca e Affinamento Durante il Pensiero: Ragionamento Autonomo Aumentato dal Recupero nei Modelli Linguistici di Grande Dimensione

Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs

May 16, 2025
Autori: Yaorui Shi, Shihan Li, Chang Wu, Zhiyuan Liu, Junfeng Fang, Hengxing Cai, An Zhang, Xiang Wang
cs.AI

Abstract

I grandi modelli linguistici hanno dimostrato impressionanti capacità di ragionamento, ma sono intrinsecamente limitati dal loro serbatoio di conoscenze. Il ragionamento potenziato dal retrieval mitiga questa limitazione consentendo ai LLM di interrogare risorse esterne, ma i metodi esistenti spesso recuperano informazioni irrilevanti o rumorose, ostacolando un ragionamento accurato. In questo articolo, proponiamo AutoRefine, un framework di post-addestramento basato su apprendimento per rinforzo che adotta un nuovo paradigma di "ricerca e raffinamento durante il pensiero". AutoRefine introduce espliciti passaggi di raffinamento della conoscenza tra chiamate di ricerca successive, consentendo al modello di filtrare, distillare e organizzare le prove in modo iterativo prima di generare una risposta. Inoltre, incorporiamo ricompense specifiche per il retrieval insieme a ricompense per la correttezza delle risposte utilizzando l'ottimizzazione relativa delle politiche di gruppo. Esperimenti su benchmark di QA a singolo e multi-hop dimostrano che AutoRefine supera significativamente gli approcci esistenti, in particolare negli scenari di ragionamento complesso e multi-hop. Un'analisi dettagliata mostra che AutoRefine effettua ricerche frequenti e di qualità superiore, sintetizzando efficacemente le prove.
English
Large language models have demonstrated impressive reasoning capabilities but are inherently limited by their knowledge reservoir. Retrieval-augmented reasoning mitigates this limitation by allowing LLMs to query external resources, but existing methods often retrieve irrelevant or noisy information, hindering accurate reasoning. In this paper, we propose AutoRefine, a reinforcement learning post-training framework that adopts a new ``search-and-refine-during-think'' paradigm. AutoRefine introduces explicit knowledge refinement steps between successive search calls, enabling the model to iteratively filter, distill, and organize evidence before generating an answer. Furthermore, we incorporate tailored retrieval-specific rewards alongside answer correctness rewards using group relative policy optimization. Experiments on single-hop and multi-hop QA benchmarks demonstrate that AutoRefine significantly outperforms existing approaches, particularly in complex, multi-hop reasoning scenarios. Detailed analysis shows that AutoRefine issues frequent, higher-quality searches and synthesizes evidence effectively.
PDF81May 28, 2025