Distilación de Conocimiento Consciente del Refuerzo para el Razonamiento en Modelos de Lenguaje Grandes

Resumen

El post-entrenamiento por aprendizaje por refuerzo (RL) ha impulsado recientemente importantes avances en modelos de lenguaje grande (LLM) con razonamiento de cadena de pensamiento larga, pero el alto costo de inferencia de dichos modelos motiva la destilación en estudiantes más pequeños. La mayoría de los métodos de destilación de conocimiento (KD) existentes están diseñados para el ajuste fino supervisado (SFT), y se basan en trazas fijas del profesor o en una regularización basada en la divergencia de Kullback-Leibler (KL) entre el profesor y el estudiante. Cuando se combinan con RL, estos enfoques suelen sufrir de desajuste de distribución e interferencia de objetivos: la supervisión del profesor puede no alinearse con la distribución de evolución del estudiante, y el regularizador KL puede competir con la maximización de la recompensa y requerir un equilibrio cuidadoso de las pérdidas. Para abordar estos problemas, proponemos la destilación consciente de RL (RLAD), que realiza una imitación selectiva durante el RL, guiando al estudiante hacia el profesor solo cuando esto mejora la actualización de la política actual. Nuestro componente central, la Destilación de Razón de la Región de Confianza (TRRD), reemplaza el regularizador KL profesor-estudiante con un objetivo de razón de verosimilitud al estilo PPO/GRPO anclado a una mezcla de la política anterior y el profesor, produciendo una destilación consciente de la ventaja y acotada por la región de confianza en las evoluciones del estudiante, y equilibrando naturalmente la exploración, la explotación y la imitación. En diversos benchmarks de razonamiento lógico y matemático, RLAD supera consistentemente a la destilación offline, al GRPO estándar y a la destilación de conocimiento profesor-estudiante basada en KL y en la política actual.

English

Reinforcement learning (RL) post-training has recently driven major gains in long chain-of-thought reasoning large language models (LLMs), but the high inference cost of such models motivates distillation into smaller students. Most existing knowledge distillation (KD) methods are designed for supervised fine-tuning (SFT), relying on fixed teacher traces or teacher-student Kullback-Leibler (KL) divergence-based regularization. When combined with RL, these approaches often suffer from distribution mismatch and objective interference: teacher supervision may not align with the student's evolving rollout distribution, and the KL regularizer can compete with reward maximization and require careful loss balancing. To address these issues, we propose RL-aware distillation (RLAD), which performs selective imitation during RL -- guiding the student toward the teacher only when it improves the current policy update. Our core component, Trust Region Ratio Distillation (TRRD), replaces the teacher-student KL regularizer with a PPO/GRPO-style likelihood-ratio objective anchored to a teacher--old-policy mixture, yielding advantage-aware, trust-region-bounded distillation on student rollouts and naturally balancing exploration, exploitation, and imitation. Across diverse logic reasoning and math benchmarks, RLAD consistently outperforms offline distillation, standard GRPO, and KL-based on-policy teacher-student knowledge distillation.

Distilación de Conocimiento Consciente del Refuerzo para el Razonamiento en Modelos de Lenguaje Grandes

Reinforcement-aware Knowledge Distillation for LLM Reasoning

Resumen

Support