Zoeken en Verfijnen tijdens Denken: Autonome Retrieval-Augmenterede Redenering van LLM's
Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs
May 16, 2025
Auteurs: Yaorui Shi, Shihan Li, Chang Wu, Zhiyuan Liu, Junfeng Fang, Hengxing Cai, An Zhang, Xiang Wang
cs.AI
Samenvatting
Grote taalmodellen hebben indrukwekkende redeneervaardigheden getoond, maar worden inherent beperkt door hun kennisreservoir. Retrieval-augmented reasoning verzacht deze beperking door LLM's in staat te stellen externe bronnen te raadplegen, maar bestaande methoden halen vaak irrelevante of rommelige informatie op, wat nauwkeurig redeneren belemmert. In dit artikel stellen we AutoRefine voor, een reinforcement learning-post-trainingsframework dat een nieuw "zoek-en-verfijn-tijdens-denken"-paradigma hanteert. AutoRefine introduceert expliciete kennisverfijningsstappen tussen opeenvolgende zoekopdrachten, waardoor het model bewijsmateriaal iteratief kan filteren, destilleren en organiseren voordat het een antwoord genereert. Bovendien integreren we op maat gemaakte retrieval-specifieke beloningen naast antwoordcorrectheidsbeloningen met behulp van groep-relatief beleidsoptimalisatie. Experimenten op single-hop en multi-hop QA-benchmarks tonen aan dat AutoRefine bestaande benaderingen aanzienlijk overtreft, met name in complexe, multi-hop redeneerscenario's. Gedetailleerde analyse laat zien dat AutoRefine frequente, hogere kwaliteit zoekopdrachten uitvoert en bewijsmateriaal effectief synthetiseert.
English
Large language models have demonstrated impressive reasoning capabilities but
are inherently limited by their knowledge reservoir. Retrieval-augmented
reasoning mitigates this limitation by allowing LLMs to query external
resources, but existing methods often retrieve irrelevant or noisy information,
hindering accurate reasoning. In this paper, we propose AutoRefine, a
reinforcement learning post-training framework that adopts a new
``search-and-refine-during-think'' paradigm. AutoRefine introduces explicit
knowledge refinement steps between successive search calls, enabling the model
to iteratively filter, distill, and organize evidence before generating an
answer. Furthermore, we incorporate tailored retrieval-specific rewards
alongside answer correctness rewards using group relative policy optimization.
Experiments on single-hop and multi-hop QA benchmarks demonstrate that
AutoRefine significantly outperforms existing approaches, particularly in
complex, multi-hop reasoning scenarios. Detailed analysis shows that AutoRefine
issues frequent, higher-quality searches and synthesizes evidence effectively.