REARANK : Agent de réordonnancement par raisonnement via apprentissage par renforcement
REARANK: Reasoning Re-ranking Agent via Reinforcement Learning
May 26, 2025
Auteurs: Le Zhang, Bo Wang, Xipeng Qiu, Siva Reddy, Aishwarya Agrawal
cs.AI
Résumé
Nous présentons REARANK, un agent de reranking basé sur un modèle de langage de grande taille (LLM) utilisant un raisonnement par liste. REARANK raisonne explicitement avant de procéder au reranking, améliorant ainsi significativement à la fois les performances et l'interprétabilité. En tirant parti de l'apprentissage par renforcement et de l'augmentation de données, REARANK obtient des améliorations substantielles par rapport aux modèles de référence sur des benchmarks populaires en recherche d'information, tout en nécessitant seulement 179 échantillons annotés. Basé sur Qwen2.5-7B, notre modèle REARANK-7B démontre des performances comparables à celles de GPT-4 sur des benchmarks aussi bien en domaine qu'hors domaine, et dépasse même GPT-4 sur les benchmarks BRIGHT, qui requièrent un raisonnement intensif. Ces résultats soulignent l'efficacité de notre approche et mettent en évidence comment l'apprentissage par renforcement peut renforcer les capacités de raisonnement des LLM dans le contexte du reranking.
English
We present REARANK, a large language model (LLM)-based listwise reasoning
reranking agent. REARANK explicitly reasons before reranking, significantly
improving both performance and interpretability. Leveraging reinforcement
learning and data augmentation, REARANK achieves substantial improvements over
baseline models across popular information retrieval benchmarks, notably
requiring only 179 annotated samples. Built on top of Qwen2.5-7B, our
REARANK-7B demonstrates performance comparable to GPT-4 on both in-domain and
out-of-domain benchmarks and even surpasses GPT-4 on reasoning-intensive BRIGHT
benchmarks. These results underscore the effectiveness of our approach and
highlight how reinforcement learning can enhance LLM reasoning capabilities in
reranking.Summary
AI-Generated Summary