Non "sovrappensare" il riordinamento dei passaggi: il ragionamento è davvero necessario?
Don't "Overthink" Passage Reranking: Is Reasoning Truly Necessary?
May 22, 2025
Autori: Nour Jedidi, Yung-Sung Chuang, James Glass, Jimmy Lin
cs.AI
Abstract
Con il crescente successo dei modelli di ragionamento in compiti complessi di linguaggio naturale, i ricercatori della comunità di Information Retrieval (IR) hanno iniziato a esplorare come capacità di ragionamento simili possano essere integrate nei sistemi di riordinamento di passaggi basati su Large Language Models (LLM). Questi metodi impiegano tipicamente un LLM per produrre un processo di ragionamento esplicito e passo-passo prima di arrivare a una previsione finale di rilevanza. Ma il ragionamento migliora effettivamente l'accuratezza del riordinamento? In questo articolo, approfondiamo questa domanda, studiando l'impatto del processo di ragionamento confrontando i sistemi di riordinamento pointwise basati su ragionamento (ReasonRR) con i sistemi pointwise standard senza ragionamento (StandardRR) in condizioni di addestramento identiche, e osserviamo che StandardRR generalmente supera ReasonRR. Sulla base di questa osservazione, studiamo poi l'importanza del ragionamento per ReasonRR disabilitando il suo processo di ragionamento (ReasonRR-NoReason), e scopriamo che ReasonRR-NoReason è sorprendentemente più efficace di ReasonRR. Esaminando la causa di questo risultato, le nostre scoperte rivelano che i sistemi di riordinamento basati su ragionamento sono limitati dal processo di ragionamento dell'LLM, che lo spinge verso punteggi di rilevanza polarizzati e quindi non riesce a considerare la rilevanza parziale dei passaggi, un fattore chiave per l'accuratezza dei sistemi di riordinamento pointwise.
English
With the growing success of reasoning models across complex natural language
tasks, researchers in the Information Retrieval (IR) community have begun
exploring how similar reasoning capabilities can be integrated into passage
rerankers built on Large Language Models (LLMs). These methods typically employ
an LLM to produce an explicit, step-by-step reasoning process before arriving
at a final relevance prediction. But, does reasoning actually improve reranking
accuracy? In this paper, we dive deeper into this question, studying the impact
of the reasoning process by comparing reasoning-based pointwise rerankers
(ReasonRR) to standard, non-reasoning pointwise rerankers (StandardRR) under
identical training conditions, and observe that StandardRR generally
outperforms ReasonRR. Building on this observation, we then study the
importance of reasoning to ReasonRR by disabling its reasoning process
(ReasonRR-NoReason), and find that ReasonRR-NoReason is surprisingly more
effective than ReasonRR. Examining the cause of this result, our findings
reveal that reasoning-based rerankers are limited by the LLM's reasoning
process, which pushes it toward polarized relevance scores and thus fails to
consider the partial relevance of passages, a key factor for the accuracy of
pointwise rerankers.