REARANK: Reasoning Re-ranking Agent mittels Reinforcement Learning

papers.abstract

Wir präsentieren REARANK, einen listenbasierten Reasoning-Reranking-Agenten, der auf einem großen Sprachmodell (LLM) basiert. REARANK führt explizites Reasoning durch, bevor es das Reranking vornimmt, was sowohl die Leistung als auch die Interpretierbarkeit deutlich verbessert. Durch den Einsatz von Reinforcement Learning und Datenaugmentierung erzielt REARANK erhebliche Verbesserungen gegenüber Baseline-Modellen in gängigen Information-Retrieval-Benchmarks, wobei bemerkenswerterweise nur 179 annotierte Proben benötigt werden. Aufbauend auf Qwen2.5-7B zeigt unser REARANK-7B eine Leistung, die mit GPT-4 sowohl in domänenspezifischen als auch domänenübergreifenden Benchmarks vergleichbar ist und GPT-4 sogar in reasoning-intensiven BRIGHT-Benchmarks übertrifft. Diese Ergebnisse unterstreichen die Effektivität unseres Ansatzes und zeigen, wie Reinforcement Learning die Reasoning-Fähigkeiten von LLMs im Reranking verbessern kann.

English

We present REARANK, a large language model (LLM)-based listwise reasoning reranking agent. REARANK explicitly reasons before reranking, significantly improving both performance and interpretability. Leveraging reinforcement learning and data augmentation, REARANK achieves substantial improvements over baseline models across popular information retrieval benchmarks, notably requiring only 179 annotated samples. Built on top of Qwen2.5-7B, our REARANK-7B demonstrates performance comparable to GPT-4 on both in-domain and out-of-domain benchmarks and even surpasses GPT-4 on reasoning-intensive BRIGHT benchmarks. These results underscore the effectiveness of our approach and highlight how reinforcement learning can enhance LLM reasoning capabilities in reranking.

REARANK: Reasoning Re-ranking Agent mittels Reinforcement Learning

REARANK: Reasoning Re-ranking Agent via Reinforcement Learning

papers.abstract

Support