ChatPaper.aiChatPaper

"Overdenk" Passage Reranking niet: Is Redeneren Echt Nodig?

Don't "Overthink" Passage Reranking: Is Reasoning Truly Necessary?

May 22, 2025
Auteurs: Nour Jedidi, Yung-Sung Chuang, James Glass, Jimmy Lin
cs.AI

Samenvatting

Met het groeiende succes van redeneermodellen bij complexe natuurlijke taal taken, hebben onderzoekers in de Information Retrieval (IR) gemeenschap begonnen te verkennen hoe vergelijkbare redeneervaardigheden kunnen worden geïntegreerd in passageherrangschikkers gebouwd op Large Language Models (LLMs). Deze methoden gebruiken doorgaans een LLM om een expliciet, stapsgewijs redeneerproces te produceren voordat een uiteindelijke relevantievoorspelling wordt gemaakt. Maar, verbetert redeneren daadwerkelijk de nauwkeurigheid van herrangschikking? In dit artikel duiken we dieper in op deze vraag en bestuderen we de impact van het redeneerproces door redeneringsgebaseerde puntgewijze herrangschikkers (ReasonRR) te vergelijken met standaard, niet-redenerende puntgewijze herrangschikkers (StandardRR) onder identieke trainingsomstandigheden, en constateren we dat StandardRR over het algemeen beter presteert dan ReasonRR. Voortbouwend op deze observatie bestuderen we vervolgens het belang van redeneren voor ReasonRR door het redeneerproces uit te schakelen (ReasonRR-NoReason), en vinden we dat ReasonRR-NoReason verrassend effectiever is dan ReasonRR. Door de oorzaak van dit resultaat te onderzoeken, onthullen onze bevindingen dat redeneringsgebaseerde herrangschikkers worden beperkt door het redeneerproces van de LLM, dat het model richting gepolariseerde relevantiescores duwt en daardoor de gedeeltelijke relevantie van passages niet in overweging neemt, een belangrijke factor voor de nauwkeurigheid van puntgewijze herrangschikkers.
English
With the growing success of reasoning models across complex natural language tasks, researchers in the Information Retrieval (IR) community have begun exploring how similar reasoning capabilities can be integrated into passage rerankers built on Large Language Models (LLMs). These methods typically employ an LLM to produce an explicit, step-by-step reasoning process before arriving at a final relevance prediction. But, does reasoning actually improve reranking accuracy? In this paper, we dive deeper into this question, studying the impact of the reasoning process by comparing reasoning-based pointwise rerankers (ReasonRR) to standard, non-reasoning pointwise rerankers (StandardRR) under identical training conditions, and observe that StandardRR generally outperforms ReasonRR. Building on this observation, we then study the importance of reasoning to ReasonRR by disabling its reasoning process (ReasonRR-NoReason), and find that ReasonRR-NoReason is surprisingly more effective than ReasonRR. Examining the cause of this result, our findings reveal that reasoning-based rerankers are limited by the LLM's reasoning process, which pushes it toward polarized relevance scores and thus fails to consider the partial relevance of passages, a key factor for the accuracy of pointwise rerankers.
PDF62May 27, 2025