"Überdenken" Sie das Reranking von Textpassagen nicht: Ist logisches Schließen wirklich notwendig?

papers.abstract

Mit dem zunehmenden Erfolg von Reasoning-Modellen bei komplexen Aufgaben der natürlichen Sprachverarbeitung haben Forscher in der Information-Retrieval-(IR)-Community begonnen zu untersuchen, wie ähnliche Reasoning-Fähigkeiten in Passagen-Reranker integriert werden können, die auf Large Language Models (LLMs) basieren. Diese Methoden verwenden typischerweise ein LLM, um einen expliziten, schrittweisen Reasoning-Prozess zu erzeugen, bevor eine endgültige Relevanzvorhersage getroffen wird. Aber verbessert Reasoning tatsächlich die Genauigkeit des Rerankings? In diesem Artikel gehen wir dieser Frage tiefer auf den Grund, indem wir die Auswirkungen des Reasoning-Prozesses untersuchen, indem wir Reasoning-basierte punktweise Reranker (ReasonRR) mit standardmäßigen, nicht-reasoning-basierten punktweisen Rerankern (StandardRR) unter identischen Trainingsbedingungen vergleichen. Dabei stellen wir fest, dass StandardRR im Allgemeinen besser abschneidet als ReasonRR. Aufbauend auf dieser Beobachtung untersuchen wir dann die Bedeutung des Reasoning für ReasonRR, indem wir dessen Reasoning-Prozess deaktivieren (ReasonRR-NoReason), und stellen fest, dass ReasonRR-NoReason überraschenderweise effektiver ist als ReasonRR. Bei der Untersuchung der Ursache dieses Ergebnisses zeigen unsere Erkenntnisse, dass Reasoning-basierte Reranker durch den Reasoning-Prozess des LLMs eingeschränkt werden, der es zu polarisierten Relevanzbewertungen drängt und somit die partielle Relevanz von Passagen nicht berücksichtigt, ein entscheidender Faktor für die Genauigkeit von punktweisen Rerankern.

English

With the growing success of reasoning models across complex natural language tasks, researchers in the Information Retrieval (IR) community have begun exploring how similar reasoning capabilities can be integrated into passage rerankers built on Large Language Models (LLMs). These methods typically employ an LLM to produce an explicit, step-by-step reasoning process before arriving at a final relevance prediction. But, does reasoning actually improve reranking accuracy? In this paper, we dive deeper into this question, studying the impact of the reasoning process by comparing reasoning-based pointwise rerankers (ReasonRR) to standard, non-reasoning pointwise rerankers (StandardRR) under identical training conditions, and observe that StandardRR generally outperforms ReasonRR. Building on this observation, we then study the importance of reasoning to ReasonRR by disabling its reasoning process (ReasonRR-NoReason), and find that ReasonRR-NoReason is surprisingly more effective than ReasonRR. Examining the cause of this result, our findings reveal that reasoning-based rerankers are limited by the LLM's reasoning process, which pushes it toward polarized relevance scores and thus fails to consider the partial relevance of passages, a key factor for the accuracy of pointwise rerankers.

"Überdenken" Sie das Reranking von Textpassagen nicht: Ist logisches Schließen wirklich notwendig?

Don't "Overthink" Passage Reranking: Is Reasoning Truly Necessary?

papers.abstract

Support