REARANK: Agente de Reordenamento Raciocinado via Aprendizado por Reforço

Resumo

Apresentamos o REARANK, um agente de rerranqueamento baseado em modelo de linguagem de grande escala (LLM) que utiliza raciocínio listwise. O REARANK realiza raciocínio explícito antes de rerranquear, melhorando significativamente tanto o desempenho quanto a interpretabilidade. Aproveitando o aprendizado por reforço e a ampliação de dados, o REARANK alcança melhorias substanciais em relação aos modelos de referência em benchmarks populares de recuperação de informação, notavelmente exigindo apenas 179 amostras anotadas. Construído sobre o Qwen2.5-7B, nosso REARANK-7B demonstra desempenho comparável ao GPT-4 tanto em benchmarks dentro do domínio quanto fora do domínio, e até supera o GPT-4 em benchmarks de raciocínio intensivo como o BRIGHT. Esses resultados destacam a eficácia de nossa abordagem e mostram como o aprendizado por reforço pode aprimorar as capacidades de raciocínio de LLMs em tarefas de rerranqueamento.

English

We present REARANK, a large language model (LLM)-based listwise reasoning reranking agent. REARANK explicitly reasons before reranking, significantly improving both performance and interpretability. Leveraging reinforcement learning and data augmentation, REARANK achieves substantial improvements over baseline models across popular information retrieval benchmarks, notably requiring only 179 annotated samples. Built on top of Qwen2.5-7B, our REARANK-7B demonstrates performance comparable to GPT-4 on both in-domain and out-of-domain benchmarks and even surpasses GPT-4 on reasoning-intensive BRIGHT benchmarks. These results underscore the effectiveness of our approach and highlight how reinforcement learning can enhance LLM reasoning capabilities in reranking.

REARANK: Agente de Reordenamento Raciocinado via Aprendizado por Reforço

REARANK: Reasoning Re-ranking Agent via Reinforcement Learning

Resumo

Support