Non "sovrappensare" il riordinamento dei passaggi: il ragionamento è davvero necessario?

Abstract

Con il crescente successo dei modelli di ragionamento in compiti complessi di linguaggio naturale, i ricercatori della comunità di Information Retrieval (IR) hanno iniziato a esplorare come capacità di ragionamento simili possano essere integrate nei sistemi di riordinamento di passaggi basati su Large Language Models (LLM). Questi metodi impiegano tipicamente un LLM per produrre un processo di ragionamento esplicito e passo-passo prima di arrivare a una previsione finale di rilevanza. Ma il ragionamento migliora effettivamente l'accuratezza del riordinamento? In questo articolo, approfondiamo questa domanda, studiando l'impatto del processo di ragionamento confrontando i sistemi di riordinamento pointwise basati su ragionamento (ReasonRR) con i sistemi pointwise standard senza ragionamento (StandardRR) in condizioni di addestramento identiche, e osserviamo che StandardRR generalmente supera ReasonRR. Sulla base di questa osservazione, studiamo poi l'importanza del ragionamento per ReasonRR disabilitando il suo processo di ragionamento (ReasonRR-NoReason), e scopriamo che ReasonRR-NoReason è sorprendentemente più efficace di ReasonRR. Esaminando la causa di questo risultato, le nostre scoperte rivelano che i sistemi di riordinamento basati su ragionamento sono limitati dal processo di ragionamento dell'LLM, che lo spinge verso punteggi di rilevanza polarizzati e quindi non riesce a considerare la rilevanza parziale dei passaggi, un fattore chiave per l'accuratezza dei sistemi di riordinamento pointwise.

English

With the growing success of reasoning models across complex natural language tasks, researchers in the Information Retrieval (IR) community have begun exploring how similar reasoning capabilities can be integrated into passage rerankers built on Large Language Models (LLMs). These methods typically employ an LLM to produce an explicit, step-by-step reasoning process before arriving at a final relevance prediction. But, does reasoning actually improve reranking accuracy? In this paper, we dive deeper into this question, studying the impact of the reasoning process by comparing reasoning-based pointwise rerankers (ReasonRR) to standard, non-reasoning pointwise rerankers (StandardRR) under identical training conditions, and observe that StandardRR generally outperforms ReasonRR. Building on this observation, we then study the importance of reasoning to ReasonRR by disabling its reasoning process (ReasonRR-NoReason), and find that ReasonRR-NoReason is surprisingly more effective than ReasonRR. Examining the cause of this result, our findings reveal that reasoning-based rerankers are limited by the LLM's reasoning process, which pushes it toward polarized relevance scores and thus fails to consider the partial relevance of passages, a key factor for the accuracy of pointwise rerankers.

Non "sovrappensare" il riordinamento dei passaggi: il ragionamento è davvero necessario?

Don't "Overthink" Passage Reranking: Is Reasoning Truly Necessary?

Abstract

Support