Suchen und Verfeinern während des Denkens: Autonomes abrufverstärktes Schlussfolgern von LLMs
Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs
May 16, 2025
Autoren: Yaorui Shi, Shihan Li, Chang Wu, Zhiyuan Liu, Junfeng Fang, Hengxing Cai, An Zhang, Xiang Wang
cs.AI
Zusammenfassung
Große Sprachmodelle haben beeindruckende Fähigkeiten im Bereich des logischen Denkens gezeigt, sind jedoch durch ihren Wissensspeicher inhärent begrenzt. Das retrievergestützte Denken mildert diese Einschränkung, indem es den Sprachmodellen ermöglicht, externe Ressourcen abzufragen. Bisherige Methoden rufen jedoch oft irrelevante oder verrauschte Informationen ab, was präzises Denken behindert. In diesem Artikel stellen wir AutoRefine vor, ein Reinforcement-Learning-Nachschulungs-Framework, das ein neues Paradigma des „Suchens und Verfeinerns während des Denkens“ einführt. AutoRefine integriert explizite Schritte zur Wissensverfeinerung zwischen aufeinanderfolgenden Suchanfragen, wodurch das Modell Beweise iterativ filtern, destillieren und organisieren kann, bevor es eine Antwort generiert. Darüber hinaus integrieren wir maßgeschneiderte, retriever-spezifische Belohnungen neben Belohnungen für die Antwortkorrektheit mithilfe der gruppenrelativen Politikoptimierung. Experimente auf Single-Hop- und Multi-Hop-Frage-Antwort-Benchmarks zeigen, dass AutoRefine bestehende Ansätze deutlich übertrifft, insbesondere in komplexen, Multi-Hop-Denkszenarien. Detaillierte Analysen zeigen, dass AutoRefine häufige, qualitativ hochwertige Suchanfragen stellt und Beweise effektiv synthetisiert.
English
Large language models have demonstrated impressive reasoning capabilities but
are inherently limited by their knowledge reservoir. Retrieval-augmented
reasoning mitigates this limitation by allowing LLMs to query external
resources, but existing methods often retrieve irrelevant or noisy information,
hindering accurate reasoning. In this paper, we propose AutoRefine, a
reinforcement learning post-training framework that adopts a new
``search-and-refine-during-think'' paradigm. AutoRefine introduces explicit
knowledge refinement steps between successive search calls, enabling the model
to iteratively filter, distill, and organize evidence before generating an
answer. Furthermore, we incorporate tailored retrieval-specific rewards
alongside answer correctness rewards using group relative policy optimization.
Experiments on single-hop and multi-hop QA benchmarks demonstrate that
AutoRefine significantly outperforms existing approaches, particularly in
complex, multi-hop reasoning scenarios. Detailed analysis shows that AutoRefine
issues frequent, higher-quality searches and synthesizes evidence effectively.Summary
AI-Generated Summary