생각 중 탐색 및 정제: 대규모 언어 모델의 자율적 검색 강화 추론
Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs
May 16, 2025
저자: Yaorui Shi, Shihan Li, Chang Wu, Zhiyuan Liu, Junfeng Fang, Hengxing Cai, An Zhang, Xiang Wang
cs.AI
초록
대규모 언어 모델은 인상적인 추론 능력을 보여주지만, 그 지식 저장소에 의해 본질적으로 제한을 받습니다. 검색 강화 추론은 대규모 언어 모델이 외부 자원을 쿼리할 수 있게 함으로써 이러한 한계를 완화하지만, 기존 방법들은 종종 관련성이 없거나 잡음이 많은 정보를 검색하여 정확한 추론을 방해합니다. 본 논문에서는 새로운 "생각하는 동안 검색 및 정제" 패러다임을 채택한 강화 학습 사후 훈련 프레임워크인 AutoRefine을 제안합니다. AutoRefine은 연속적인 검색 호출 사이에 명시적인 지식 정제 단계를 도입하여 모델이 답변을 생성하기 전에 반복적으로 증거를 필터링, 정제 및 조직할 수 있게 합니다. 또한, 그룹 상대 정책 최적화를 사용하여 답변 정확도 보상과 함께 맞춤형 검색 특화 보상을 통합합니다. 단일 홉 및 다중 홉 질의응답 벤치마크에서의 실험은 AutoRefine이 특히 복잡한 다중 홉 추론 시나리오에서 기존 접근법을 크게 능가함을 보여줍니다. 상세 분석은 AutoRefine이 빈번하고 고품질의 검색을 수행하며 증거를 효과적으로 종합한다는 것을 보여줍니다.
English
Large language models have demonstrated impressive reasoning capabilities but
are inherently limited by their knowledge reservoir. Retrieval-augmented
reasoning mitigates this limitation by allowing LLMs to query external
resources, but existing methods often retrieve irrelevant or noisy information,
hindering accurate reasoning. In this paper, we propose AutoRefine, a
reinforcement learning post-training framework that adopts a new
``search-and-refine-during-think'' paradigm. AutoRefine introduces explicit
knowledge refinement steps between successive search calls, enabling the model
to iteratively filter, distill, and organize evidence before generating an
answer. Furthermore, we incorporate tailored retrieval-specific rewards
alongside answer correctness rewards using group relative policy optimization.
Experiments on single-hop and multi-hop QA benchmarks demonstrate that
AutoRefine significantly outperforms existing approaches, particularly in
complex, multi-hop reasoning scenarios. Detailed analysis shows that AutoRefine
issues frequent, higher-quality searches and synthesizes evidence effectively.Summary
AI-Generated Summary