FREESON: 코퍼스 탐색 MCTS를 통한 검색기 없는 검색 강화 추론
FREESON: Retriever-Free Retrieval-Augmented Reasoning via Corpus-Traversing MCTS
May 22, 2025
저자: Chaeeun Kim, Seungone Kim
cs.AI
초록
대규모 추론 모델(Large Reasoning Models, LRMs)은 다단계 추론과 적절한 단계에서 검색 엔진을 호출하는 데 있어 뛰어난 능력을 보여주고 있습니다. 그러나 기존의 검색 강화 추론 접근법은 별도의 검색 모델에 의존함으로써, LRM의 역할을 검색 시점과 쿼리 방법을 결정하는 데로 제한하고 있습니다. 이러한 분리는 하드웨어 및 운영 비용을 증가시킬 뿐만 아니라, 검색 과정에서 발생하는 표현 병목 현상(representation bottleneck)으로 인해 오류를 유발합니다. 표현 병목 현상은 검색기의 임베딩 공간이 생성기의 요구를 충분히 반영하지 못하는 현상을 말합니다. 이를 해결하기 위해, 우리는 시퀀스-투-시퀀스 매칭에서 벗어나 코퍼스 내에서 답변을 포함하는 경로를 찾는 관점으로 전환하고, FREESON(Retriever-FREE Retrieval-Augmented ReaSONing)이라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 LRM이 생성기와 검색기 역할을 동시에 수행함으로써 관련 지식을 스스로 검색할 수 있도록 합니다. 이를 위해, 우리는 검색 작업에 특화된 MCTS(Monte Carlo Tree Search) 알고리즘의 변형인 CT-MCTS(Corpus-Traversing Monte Carlo Tree Search)를 도입했습니다. 이 알고리즘에서 LRM은 코퍼스를 탐색하며 답변을 포함하는 영역으로 이동합니다. 단일 홉(single-hop) 및 다중 홉(multi-hop) 질문을 포함한 5개의 오픈 도메인 QA 벤치마크에서의 실험 결과, FREESON은 별도의 검색기를 사용하는 4개의 다단계 추론 모델 대비 EM(Exact Match) 및 F1 점수에서 평균 14.4%의 향상을 보였으며, 가장 강력한 베이스라인과 비교했을 때도 PopQA와 2WikiMultihopQA에서 각각 3%와 2%의 성능 향상을 달성했습니다.
English
Large Reasoning Models (LRMs) have demonstrated remarkable capabilities in
multi-step reasoning and calling search engines at appropriate steps. However,
existing retrieval-augmented reasoning approaches rely on separate retrieval
models, limiting the LRM's role in retrieval to deciding when to retrieve and
how to query. This separation not only increases hardware and operational costs
but also leads to errors in the retrieval process due to the representation
bottleneck, a phenomenon where the retriever's embedding space is not
expressive enough to meet the generator's requirements. To address this, we
shift our perspective from sequence-to-sequence matching to locating the
answer-containing paths within the corpus, and propose a novel framework called
FREESON (Retriever-FREE Retrieval-Augmented ReaSONing). This framework enables
LRMs to retrieve relevant knowledge on their own by acting as both a generator
and retriever. To achieve this, we introduce a variant of the MCTS algorithm
specialized for the retrieval task, which we call CT-MCTS (Corpus-Traversing
Monte Carlo Tree Search). In this algorithm, LRMs traverse through the corpus
toward answer-containing regions. Our results on five open-domain QA
benchmarks, including single-hop and multi-hop questions, show that FREESON
achieves an average improvement of 14.4% in EM and F1 over four multi-step
reasoning models with a separate retriever, and it also performs comparably to
the strongest baseline, surpassing it by 3% on PopQA and 2WikiMultihopQA.Summary
AI-Generated Summary