Distilação e Refinamento de Raciocínio em Modelos de Linguagem Pequenos para Reordenamento de Documentos

Resumo

Apresentamos uma abordagem inovadora para treinar modelos de linguagem pequenos para tarefas intensivas de raciocínio em classificação de documentos, que combina destilação de conhecimento com otimização por aprendizado por reforço. Enquanto os métodos existentes frequentemente dependem de anotações humanas dispendiosas ou de grandes modelos de linguagem de caixa preta, nossa metodologia aproveita dados da web e um modelo de linguagem professor (LLM) para gerar automaticamente exemplos de treinamento de alta qualidade com explicações de relevância. Ao enquadrar a classificação de documentos como um problema de aprendizado por reforço e incentivar capacidades explícitas de raciocínio, treinamos um modelo de linguagem compacto com 3 bilhões de parâmetros que alcança desempenho de ponta no benchmark BRIGHT. Nosso modelo ocupa a terceira posição no ranking, utilizando significativamente menos parâmetros do que outras abordagens, superando modelos que são mais de 20 vezes maiores. Por meio de experimentos extensivos, demonstramos que gerar explicações durante a inferência, em vez de prever diretamente os escores de relevância, permite um raciocínio mais eficaz com modelos de linguagem menores. A natureza auto-supervisionada do nosso método oferece uma solução escalável e interpretável para sistemas modernos de recuperação de informação.

English

We present a novel approach for training small language models for reasoning-intensive document ranking that combines knowledge distillation with reinforcement learning optimization. While existing methods often rely on expensive human annotations or large black-box language models, our methodology leverages web data and a teacher LLM to automatically generate high-quality training examples with relevance explanations. By framing document ranking as a reinforcement learning problem and incentivizing explicit reasoning capabilities, we train a compact 3B parameter language model that achieves state-of-the-art performance on the BRIGHT benchmark. Our model ranks third on the leaderboard while using substantially fewer parameters than other approaches, outperforming models that are over 20 times larger. Through extensive experiments, we demonstrate that generating explanations during inference, rather than directly predicting relevance scores, enables more effective reasoning with smaller language models. The self-supervised nature of our method offers a scalable and interpretable solution for modern information retrieval systems.

Distilação e Refinamento de Raciocínio em Modelos de Linguagem Pequenos para Reordenamento de Documentos

Distillation and Refinement of Reasoning in Small Language Models for Document Re-ranking

Resumo

Summary

Support

Support