REARANK: Agente de Reordenamiento mediante Razonamiento y Aprendizaje por Refuerzo
REARANK: Reasoning Re-ranking Agent via Reinforcement Learning
May 26, 2025
Autores: Le Zhang, Bo Wang, Xipeng Qiu, Siva Reddy, Aishwarya Agrawal
cs.AI
Resumen
Presentamos REARANK, un agente de reranking basado en un modelo de lenguaje grande (LLM) que utiliza razonamiento listwise. REARANK razona explícitamente antes de realizar el reranking, mejorando significativamente tanto el rendimiento como la interpretabilidad. Al aprovechar el aprendizaje por refuerzo y la ampliación de datos, REARANK logra mejoras sustanciales sobre los modelos de referencia en benchmarks populares de recuperación de información, destacando que requiere solo 179 muestras anotadas. Construido sobre Qwen2.5-7B, nuestro REARANK-7B demuestra un rendimiento comparable al de GPT-4 tanto en benchmarks dentro del dominio como fuera de él, e incluso supera a GPT-4 en benchmarks intensivos en razonamiento como BRIGHT. Estos resultados subrayan la efectividad de nuestro enfoque y resaltan cómo el aprendizaje por refuerzo puede mejorar las capacidades de razonamiento de los LLM en el reranking.
English
We present REARANK, a large language model (LLM)-based listwise reasoning
reranking agent. REARANK explicitly reasons before reranking, significantly
improving both performance and interpretability. Leveraging reinforcement
learning and data augmentation, REARANK achieves substantial improvements over
baseline models across popular information retrieval benchmarks, notably
requiring only 179 annotated samples. Built on top of Qwen2.5-7B, our
REARANK-7B demonstrates performance comparable to GPT-4 on both in-domain and
out-of-domain benchmarks and even surpasses GPT-4 on reasoning-intensive BRIGHT
benchmarks. These results underscore the effectiveness of our approach and
highlight how reinforcement learning can enhance LLM reasoning capabilities in
reranking.Summary
AI-Generated Summary