ChatPaper.aiChatPaper

"패시지 재순위화를 '과도하게 고민'하지 말자: 추론이 정말 필요한가?"

Don't "Overthink" Passage Reranking: Is Reasoning Truly Necessary?

May 22, 2025
저자: Nour Jedidi, Yung-Sung Chuang, James Glass, Jimmy Lin
cs.AI

초록

복잡한 자연어 작업에서 추론 모델의 성공이 증가함에 따라, 정보 검색(IR) 커뮤니티의 연구자들은 대규모 언어 모델(LLM) 기반의 문서 재순위 모델에 유사한 추론 능력을 통합하는 방법을 탐구하기 시작했습니다. 이러한 방법들은 일반적으로 LLM을 사용하여 최종 관련성 예측에 도달하기 전에 명시적이고 단계별 추론 과정을 생성합니다. 그러나 추론이 실제로 재순위 정확도를 향상시키는가? 본 논문에서는 이 질문에 대해 더 깊이 파고들어, 동일한 학습 조건 하에서 추론 기반 점별 재순위 모델(ReasonRR)과 표준 비추론 점별 재순위 모델(StandardRR)을 비교하여 추론 과정의 영향을 연구했습니다. 그 결과, StandardRR이 일반적으로 ReasonRR을 능가하는 것을 관찰했습니다. 이 관찰을 바탕으로, 우리는 ReasonRR의 추론 과정을 비활성화하여(ReasonRR-NoReason) 추론의 중요성을 연구했고, 놀랍게도 ReasonRR-NoReason이 ReasonRR보다 더 효과적이라는 사실을 발견했습니다. 이 결과의 원인을 조사한 결과, 추론 기반 재순위 모델은 LLM의 추론 과정에 의해 제한되어 극단적인 관련성 점수로 치우치게 되고, 이로 인해 문서의 부분적 관련성을 고려하지 못하게 되어 점별 재순위 모델의 정확성에 중요한 요소를 놓치게 된다는 사실을 밝혀냈습니다.
English
With the growing success of reasoning models across complex natural language tasks, researchers in the Information Retrieval (IR) community have begun exploring how similar reasoning capabilities can be integrated into passage rerankers built on Large Language Models (LLMs). These methods typically employ an LLM to produce an explicit, step-by-step reasoning process before arriving at a final relevance prediction. But, does reasoning actually improve reranking accuracy? In this paper, we dive deeper into this question, studying the impact of the reasoning process by comparing reasoning-based pointwise rerankers (ReasonRR) to standard, non-reasoning pointwise rerankers (StandardRR) under identical training conditions, and observe that StandardRR generally outperforms ReasonRR. Building on this observation, we then study the importance of reasoning to ReasonRR by disabling its reasoning process (ReasonRR-NoReason), and find that ReasonRR-NoReason is surprisingly more effective than ReasonRR. Examining the cause of this result, our findings reveal that reasoning-based rerankers are limited by the LLM's reasoning process, which pushes it toward polarized relevance scores and thus fails to consider the partial relevance of passages, a key factor for the accuracy of pointwise rerankers.

Summary

AI-Generated Summary

PDF52May 27, 2025