Distilação e Refinamento de Raciocínio em Modelos de Linguagem Pequenos para Reordenamento de Documentos
Distillation and Refinement of Reasoning in Small Language Models for Document Re-ranking
April 4, 2025
Autores: Chris Samarinas, Hamed Zamani
cs.AI
Resumo
Apresentamos uma abordagem inovadora para treinar modelos de linguagem pequenos para tarefas intensivas de raciocínio em classificação de documentos, que combina destilação de conhecimento com otimização por aprendizado por reforço. Enquanto os métodos existentes frequentemente dependem de anotações humanas dispendiosas ou de grandes modelos de linguagem de caixa preta, nossa metodologia aproveita dados da web e um modelo de linguagem professor (LLM) para gerar automaticamente exemplos de treinamento de alta qualidade com explicações de relevância. Ao enquadrar a classificação de documentos como um problema de aprendizado por reforço e incentivar capacidades explícitas de raciocínio, treinamos um modelo de linguagem compacto com 3 bilhões de parâmetros que alcança desempenho de ponta no benchmark BRIGHT. Nosso modelo ocupa a terceira posição no ranking, utilizando significativamente menos parâmetros do que outras abordagens, superando modelos que são mais de 20 vezes maiores. Por meio de experimentos extensivos, demonstramos que gerar explicações durante a inferência, em vez de prever diretamente os escores de relevância, permite um raciocínio mais eficaz com modelos de linguagem menores. A natureza auto-supervisionada do nosso método oferece uma solução escalável e interpretável para sistemas modernos de recuperação de informação.
English
We present a novel approach for training small language models for
reasoning-intensive document ranking that combines knowledge distillation with
reinforcement learning optimization. While existing methods often rely on
expensive human annotations or large black-box language models, our methodology
leverages web data and a teacher LLM to automatically generate high-quality
training examples with relevance explanations. By framing document ranking as a
reinforcement learning problem and incentivizing explicit reasoning
capabilities, we train a compact 3B parameter language model that achieves
state-of-the-art performance on the BRIGHT benchmark. Our model ranks third on
the leaderboard while using substantially fewer parameters than other
approaches, outperforming models that are over 20 times larger. Through
extensive experiments, we demonstrate that generating explanations during
inference, rather than directly predicting relevance scores, enables more
effective reasoning with smaller language models. The self-supervised nature of
our method offers a scalable and interpretable solution for modern information
retrieval systems.Summary
AI-Generated Summary