ChatPaper.aiChatPaper

FREESON: 코퍼스 탐색 MCTS를 통한 검색기 없는 검색 강화 추론

FREESON: Retriever-Free Retrieval-Augmented Reasoning via Corpus-Traversing MCTS

May 22, 2025
저자: Chaeeun Kim, Seungone Kim
cs.AI

초록

대규모 추론 모델(Large Reasoning Models, LRMs)은 다단계 추론과 적절한 단계에서 검색 엔진을 호출하는 데 있어 뛰어난 능력을 보여주고 있습니다. 그러나 기존의 검색 강화 추론 접근법은 별도의 검색 모델에 의존함으로써, LRM의 역할을 검색 시점과 쿼리 방법을 결정하는 데로 제한하고 있습니다. 이러한 분리는 하드웨어 및 운영 비용을 증가시킬 뿐만 아니라, 검색 과정에서 발생하는 표현 병목 현상(representation bottleneck)으로 인해 오류를 유발합니다. 표현 병목 현상은 검색기의 임베딩 공간이 생성기의 요구를 충분히 반영하지 못하는 현상을 말합니다. 이를 해결하기 위해, 우리는 시퀀스-투-시퀀스 매칭에서 벗어나 코퍼스 내에서 답변을 포함하는 경로를 찾는 관점으로 전환하고, FREESON(Retriever-FREE Retrieval-Augmented ReaSONing)이라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 LRM이 생성기와 검색기 역할을 동시에 수행함으로써 관련 지식을 스스로 검색할 수 있도록 합니다. 이를 위해, 우리는 검색 작업에 특화된 MCTS(Monte Carlo Tree Search) 알고리즘의 변형인 CT-MCTS(Corpus-Traversing Monte Carlo Tree Search)를 도입했습니다. 이 알고리즘에서 LRM은 코퍼스를 탐색하며 답변을 포함하는 영역으로 이동합니다. 단일 홉(single-hop) 및 다중 홉(multi-hop) 질문을 포함한 5개의 오픈 도메인 QA 벤치마크에서의 실험 결과, FREESON은 별도의 검색기를 사용하는 4개의 다단계 추론 모델 대비 EM(Exact Match) 및 F1 점수에서 평균 14.4%의 향상을 보였으며, 가장 강력한 베이스라인과 비교했을 때도 PopQA와 2WikiMultihopQA에서 각각 3%와 2%의 성능 향상을 달성했습니다.
English
Large Reasoning Models (LRMs) have demonstrated remarkable capabilities in multi-step reasoning and calling search engines at appropriate steps. However, existing retrieval-augmented reasoning approaches rely on separate retrieval models, limiting the LRM's role in retrieval to deciding when to retrieve and how to query. This separation not only increases hardware and operational costs but also leads to errors in the retrieval process due to the representation bottleneck, a phenomenon where the retriever's embedding space is not expressive enough to meet the generator's requirements. To address this, we shift our perspective from sequence-to-sequence matching to locating the answer-containing paths within the corpus, and propose a novel framework called FREESON (Retriever-FREE Retrieval-Augmented ReaSONing). This framework enables LRMs to retrieve relevant knowledge on their own by acting as both a generator and retriever. To achieve this, we introduce a variant of the MCTS algorithm specialized for the retrieval task, which we call CT-MCTS (Corpus-Traversing Monte Carlo Tree Search). In this algorithm, LRMs traverse through the corpus toward answer-containing regions. Our results on five open-domain QA benchmarks, including single-hop and multi-hop questions, show that FREESON achieves an average improvement of 14.4% in EM and F1 over four multi-step reasoning models with a separate retriever, and it also performs comparably to the strongest baseline, surpassing it by 3% on PopQA and 2WikiMultihopQA.

Summary

AI-Generated Summary

PDF22May 26, 2025