ChatPaper.aiChatPaper

REARANK : Agent de réordonnancement par raisonnement via apprentissage par renforcement

REARANK: Reasoning Re-ranking Agent via Reinforcement Learning

May 26, 2025
Auteurs: Le Zhang, Bo Wang, Xipeng Qiu, Siva Reddy, Aishwarya Agrawal
cs.AI

Résumé

Nous présentons REARANK, un agent de reranking basé sur un modèle de langage de grande taille (LLM) utilisant un raisonnement par liste. REARANK raisonne explicitement avant de procéder au reranking, améliorant ainsi significativement à la fois les performances et l'interprétabilité. En tirant parti de l'apprentissage par renforcement et de l'augmentation de données, REARANK obtient des améliorations substantielles par rapport aux modèles de référence sur des benchmarks populaires en recherche d'information, tout en nécessitant seulement 179 échantillons annotés. Basé sur Qwen2.5-7B, notre modèle REARANK-7B démontre des performances comparables à celles de GPT-4 sur des benchmarks aussi bien en domaine qu'hors domaine, et dépasse même GPT-4 sur les benchmarks BRIGHT, qui requièrent un raisonnement intensif. Ces résultats soulignent l'efficacité de notre approche et mettent en évidence comment l'apprentissage par renforcement peut renforcer les capacités de raisonnement des LLM dans le contexte du reranking.
English
We present REARANK, a large language model (LLM)-based listwise reasoning reranking agent. REARANK explicitly reasons before reranking, significantly improving both performance and interpretability. Leveraging reinforcement learning and data augmentation, REARANK achieves substantial improvements over baseline models across popular information retrieval benchmarks, notably requiring only 179 annotated samples. Built on top of Qwen2.5-7B, our REARANK-7B demonstrates performance comparable to GPT-4 on both in-domain and out-of-domain benchmarks and even surpasses GPT-4 on reasoning-intensive BRIGHT benchmarks. These results underscore the effectiveness of our approach and highlight how reinforcement learning can enhance LLM reasoning capabilities in reranking.

Summary

AI-Generated Summary

PDF172May 27, 2025