"Überdenken" Sie das Reranking von Textpassagen nicht: Ist logisches Schließen wirklich notwendig?
Don't "Overthink" Passage Reranking: Is Reasoning Truly Necessary?
May 22, 2025
Autoren: Nour Jedidi, Yung-Sung Chuang, James Glass, Jimmy Lin
cs.AI
Zusammenfassung
Mit dem zunehmenden Erfolg von Reasoning-Modellen bei komplexen Aufgaben der natürlichen Sprachverarbeitung haben Forscher in der Information-Retrieval-(IR)-Community begonnen zu untersuchen, wie ähnliche Reasoning-Fähigkeiten in Passagen-Reranker integriert werden können, die auf Large Language Models (LLMs) basieren. Diese Methoden verwenden typischerweise ein LLM, um einen expliziten, schrittweisen Reasoning-Prozess zu erzeugen, bevor eine endgültige Relevanzvorhersage getroffen wird. Aber verbessert Reasoning tatsächlich die Genauigkeit des Rerankings? In diesem Artikel gehen wir dieser Frage tiefer auf den Grund, indem wir die Auswirkungen des Reasoning-Prozesses untersuchen, indem wir Reasoning-basierte punktweise Reranker (ReasonRR) mit standardmäßigen, nicht-reasoning-basierten punktweisen Rerankern (StandardRR) unter identischen Trainingsbedingungen vergleichen. Dabei stellen wir fest, dass StandardRR im Allgemeinen besser abschneidet als ReasonRR. Aufbauend auf dieser Beobachtung untersuchen wir dann die Bedeutung des Reasoning für ReasonRR, indem wir dessen Reasoning-Prozess deaktivieren (ReasonRR-NoReason), und stellen fest, dass ReasonRR-NoReason überraschenderweise effektiver ist als ReasonRR. Bei der Untersuchung der Ursache dieses Ergebnisses zeigen unsere Erkenntnisse, dass Reasoning-basierte Reranker durch den Reasoning-Prozess des LLMs eingeschränkt werden, der es zu polarisierten Relevanzbewertungen drängt und somit die partielle Relevanz von Passagen nicht berücksichtigt, ein entscheidender Faktor für die Genauigkeit von punktweisen Rerankern.
English
With the growing success of reasoning models across complex natural language
tasks, researchers in the Information Retrieval (IR) community have begun
exploring how similar reasoning capabilities can be integrated into passage
rerankers built on Large Language Models (LLMs). These methods typically employ
an LLM to produce an explicit, step-by-step reasoning process before arriving
at a final relevance prediction. But, does reasoning actually improve reranking
accuracy? In this paper, we dive deeper into this question, studying the impact
of the reasoning process by comparing reasoning-based pointwise rerankers
(ReasonRR) to standard, non-reasoning pointwise rerankers (StandardRR) under
identical training conditions, and observe that StandardRR generally
outperforms ReasonRR. Building on this observation, we then study the
importance of reasoning to ReasonRR by disabling its reasoning process
(ReasonRR-NoReason), and find that ReasonRR-NoReason is surprisingly more
effective than ReasonRR. Examining the cause of this result, our findings
reveal that reasoning-based rerankers are limited by the LLM's reasoning
process, which pushes it toward polarized relevance scores and thus fails to
consider the partial relevance of passages, a key factor for the accuracy of
pointwise rerankers.Summary
AI-Generated Summary