"Overdenk" Passage Reranking niet: Is Redeneren Echt Nodig?
Don't "Overthink" Passage Reranking: Is Reasoning Truly Necessary?
May 22, 2025
Auteurs: Nour Jedidi, Yung-Sung Chuang, James Glass, Jimmy Lin
cs.AI
Samenvatting
Met het groeiende succes van redeneermodellen bij complexe natuurlijke taal
taken, hebben onderzoekers in de Information Retrieval (IR) gemeenschap begonnen
te verkennen hoe vergelijkbare redeneervaardigheden kunnen worden geïntegreerd
in passageherrangschikkers gebouwd op Large Language Models (LLMs). Deze methoden
gebruiken doorgaans een LLM om een expliciet, stapsgewijs redeneerproces te
produceren voordat een uiteindelijke relevantievoorspelling wordt gemaakt. Maar,
verbetert redeneren daadwerkelijk de nauwkeurigheid van herrangschikking? In dit
artikel duiken we dieper in op deze vraag en bestuderen we de impact van het
redeneerproces door redeneringsgebaseerde puntgewijze herrangschikkers
(ReasonRR) te vergelijken met standaard, niet-redenerende puntgewijze
herrangschikkers (StandardRR) onder identieke trainingsomstandigheden, en
constateren we dat StandardRR over het algemeen beter presteert dan ReasonRR.
Voortbouwend op deze observatie bestuderen we vervolgens het belang van redeneren
voor ReasonRR door het redeneerproces uit te schakelen (ReasonRR-NoReason), en
vinden we dat ReasonRR-NoReason verrassend effectiever is dan ReasonRR. Door de
oorzaak van dit resultaat te onderzoeken, onthullen onze bevindingen dat
redeneringsgebaseerde herrangschikkers worden beperkt door het redeneerproces
van de LLM, dat het model richting gepolariseerde relevantiescores duwt en
daardoor de gedeeltelijke relevantie van passages niet in overweging neemt, een
belangrijke factor voor de nauwkeurigheid van puntgewijze herrangschikkers.
English
With the growing success of reasoning models across complex natural language
tasks, researchers in the Information Retrieval (IR) community have begun
exploring how similar reasoning capabilities can be integrated into passage
rerankers built on Large Language Models (LLMs). These methods typically employ
an LLM to produce an explicit, step-by-step reasoning process before arriving
at a final relevance prediction. But, does reasoning actually improve reranking
accuracy? In this paper, we dive deeper into this question, studying the impact
of the reasoning process by comparing reasoning-based pointwise rerankers
(ReasonRR) to standard, non-reasoning pointwise rerankers (StandardRR) under
identical training conditions, and observe that StandardRR generally
outperforms ReasonRR. Building on this observation, we then study the
importance of reasoning to ReasonRR by disabling its reasoning process
(ReasonRR-NoReason), and find that ReasonRR-NoReason is surprisingly more
effective than ReasonRR. Examining the cause of this result, our findings
reveal that reasoning-based rerankers are limited by the LLM's reasoning
process, which pushes it toward polarized relevance scores and thus fails to
consider the partial relevance of passages, a key factor for the accuracy of
pointwise rerankers.