ChatPaper.aiChatPaper

REARANK: Agente de Reordenamiento mediante Razonamiento y Aprendizaje por Refuerzo

REARANK: Reasoning Re-ranking Agent via Reinforcement Learning

May 26, 2025
Autores: Le Zhang, Bo Wang, Xipeng Qiu, Siva Reddy, Aishwarya Agrawal
cs.AI

Resumen

Presentamos REARANK, un agente de reranking basado en un modelo de lenguaje grande (LLM) que utiliza razonamiento listwise. REARANK razona explícitamente antes de realizar el reranking, mejorando significativamente tanto el rendimiento como la interpretabilidad. Al aprovechar el aprendizaje por refuerzo y la ampliación de datos, REARANK logra mejoras sustanciales sobre los modelos de referencia en benchmarks populares de recuperación de información, destacando que requiere solo 179 muestras anotadas. Construido sobre Qwen2.5-7B, nuestro REARANK-7B demuestra un rendimiento comparable al de GPT-4 tanto en benchmarks dentro del dominio como fuera de él, e incluso supera a GPT-4 en benchmarks intensivos en razonamiento como BRIGHT. Estos resultados subrayan la efectividad de nuestro enfoque y resaltan cómo el aprendizaje por refuerzo puede mejorar las capacidades de razonamiento de los LLM en el reranking.
English
We present REARANK, a large language model (LLM)-based listwise reasoning reranking agent. REARANK explicitly reasons before reranking, significantly improving both performance and interpretability. Leveraging reinforcement learning and data augmentation, REARANK achieves substantial improvements over baseline models across popular information retrieval benchmarks, notably requiring only 179 annotated samples. Built on top of Qwen2.5-7B, our REARANK-7B demonstrates performance comparable to GPT-4 on both in-domain and out-of-domain benchmarks and even surpasses GPT-4 on reasoning-intensive BRIGHT benchmarks. These results underscore the effectiveness of our approach and highlight how reinforcement learning can enhance LLM reasoning capabilities in reranking.

Summary

AI-Generated Summary

PDF172May 27, 2025