Не "переусердствуйте" с ранжированием текстов: действительно ли необходимо рассуждение?
Don't "Overthink" Passage Reranking: Is Reasoning Truly Necessary?
May 22, 2025
Авторы: Nour Jedidi, Yung-Sung Chuang, James Glass, Jimmy Lin
cs.AI
Аннотация
С ростом успехов моделей рассуждений в решении сложных задач обработки естественного языка, исследователи в области информационного поиска (IR) начали изучать, как аналогичные возможности рассуждений могут быть интегрированы в ранжирующие системы для текстовых фрагментов, построенные на основе больших языковых моделей (LLM). Эти методы обычно используют LLM для создания явного, пошагового процесса рассуждений перед тем, как прийти к окончательному прогнозу релевантности. Но действительно ли рассуждения улучшают точность ранжирования? В данной статье мы углубляемся в этот вопрос, изучая влияние процесса рассуждений, сравнивая ранжирующие системы на основе рассуждений (ReasonRR) со стандартными ранжирующими системами без рассуждений (StandardRR) при идентичных условиях обучения, и наблюдаем, что StandardRR, как правило, превосходит ReasonRR. Опираясь на это наблюдение, мы затем изучаем важность рассуждений для ReasonRR, отключая его процесс рассуждений (ReasonRR-NoReason), и обнаруживаем, что ReasonRR-NoReason, к удивлению, оказывается более эффективным, чем ReasonRR. Исследуя причину этого результата, наши выводы показывают, что ранжирующие системы на основе рассуждений ограничены процессом рассуждений LLM, который склоняет их к поляризованным оценкам релевантности и, таким образом, не учитывает частичную релевантность текстовых фрагментов, что является ключевым фактором для точности поточечных ранжирующих систем.
English
With the growing success of reasoning models across complex natural language
tasks, researchers in the Information Retrieval (IR) community have begun
exploring how similar reasoning capabilities can be integrated into passage
rerankers built on Large Language Models (LLMs). These methods typically employ
an LLM to produce an explicit, step-by-step reasoning process before arriving
at a final relevance prediction. But, does reasoning actually improve reranking
accuracy? In this paper, we dive deeper into this question, studying the impact
of the reasoning process by comparing reasoning-based pointwise rerankers
(ReasonRR) to standard, non-reasoning pointwise rerankers (StandardRR) under
identical training conditions, and observe that StandardRR generally
outperforms ReasonRR. Building on this observation, we then study the
importance of reasoning to ReasonRR by disabling its reasoning process
(ReasonRR-NoReason), and find that ReasonRR-NoReason is surprisingly more
effective than ReasonRR. Examining the cause of this result, our findings
reveal that reasoning-based rerankers are limited by the LLM's reasoning
process, which pushes it toward polarized relevance scores and thus fails to
consider the partial relevance of passages, a key factor for the accuracy of
pointwise rerankers.Summary
AI-Generated Summary