Distilación y refinamiento del razonamiento en modelos de lenguaje pequeños para la reordenación de documentos
Distillation and Refinement of Reasoning in Small Language Models for Document Re-ranking
April 4, 2025
Autores: Chris Samarinas, Hamed Zamani
cs.AI
Resumen
Presentamos un enfoque novedoso para entrenar modelos de lenguaje pequeños en tareas intensivas de razonamiento para la clasificación de documentos, que combina la destilación de conocimiento con la optimización mediante aprendizaje por refuerzo. Mientras que los métodos existentes suelen depender de costosas anotaciones humanas o de grandes modelos de lenguaje de caja negra, nuestra metodología aprovecha datos web y un modelo de lenguaje maestro (LLM) para generar automáticamente ejemplos de entrenamiento de alta calidad con explicaciones de relevancia. Al plantear la clasificación de documentos como un problema de aprendizaje por refuerzo e incentivar capacidades de razonamiento explícitas, entrenamos un modelo de lenguaje compacto de 3 mil millones de parámetros que alcanza un rendimiento de vanguardia en el benchmark BRIGHT. Nuestro modelo ocupa el tercer lugar en la tabla de clasificación mientras utiliza significativamente menos parámetros que otros enfoques, superando a modelos que son más de 20 veces más grandes. A través de experimentos exhaustivos, demostramos que generar explicaciones durante la inferencia, en lugar de predecir directamente puntuaciones de relevancia, permite un razonamiento más efectivo con modelos de lenguaje más pequeños. La naturaleza autosupervisada de nuestro método ofrece una solución escalable e interpretable para los sistemas modernos de recuperación de información.
English
We present a novel approach for training small language models for
reasoning-intensive document ranking that combines knowledge distillation with
reinforcement learning optimization. While existing methods often rely on
expensive human annotations or large black-box language models, our methodology
leverages web data and a teacher LLM to automatically generate high-quality
training examples with relevance explanations. By framing document ranking as a
reinforcement learning problem and incentivizing explicit reasoning
capabilities, we train a compact 3B parameter language model that achieves
state-of-the-art performance on the BRIGHT benchmark. Our model ranks third on
the leaderboard while using substantially fewer parameters than other
approaches, outperforming models that are over 20 times larger. Through
extensive experiments, we demonstrate that generating explanations during
inference, rather than directly predicting relevance scores, enables more
effective reasoning with smaller language models. The self-supervised nature of
our method offers a scalable and interpretable solution for modern information
retrieval systems.Summary
AI-Generated Summary