Entrenamiento Adaptativo Orientado a Habilidades
Skill-Targeted Adaptive Training
October 11, 2025
Autores: Yinghui He, Abhishek Panigrahi, Yong Lin, Sanjeev Arora
cs.AI
Resumen
Los modelos de lenguaje a menudo muestran poca o ninguna mejora (es decir, "saturación") cuando se entrenan mediante ajuste fino supervisado convencional (SFT) en datos similares a los que vieron en su conjunto de entrenamiento (por ejemplo, MATH). Introducimos una nueva estrategia de ajuste fino, STAT, para entrenar un modelo estudiante utilizando la capacidad de metacognición de un modelo de lenguaje grande (LLM) más potente como profesor. El profesor utiliza el conjunto de datos de la tarea para crear una lista de habilidades necesarias para la tarea y luego etiqueta cada punto de datos con las habilidades requeridas (Didolkar et al., 2024). Al monitorear las respuestas del estudiante, el profesor crea un Perfil de Habilidades Faltantes para el estudiante, registrando con qué frecuencia no aplicó cada habilidad en sus respuestas. Utilizamos esta idea para construir un conjunto de entrenamiento modificado de una de dos maneras. En STAT-Sel, el profesor utiliza un conjunto existente de ejemplos de entrenamiento pero los reponde adaptativamente según el Perfil de Habilidades Faltantes. En STAT-Syn, el profesor sintetiza ejemplos adicionales que involucran habilidades faltantes. En experimentos extensos con modelos Llama y Qwen, nuestros métodos producen mejoras de hasta un 7.5% en MATH, mientras que SFT ofrece solo ganancias limitadas. Además, STAT mejora el rendimiento en puntos de referencia fuera de distribución (por ejemplo, AIME24/25, AMC23, etc.) en un promedio del 4.6%. Crucialmente, encontramos que STAT es complementario al RL mediante GRPO (Shao et al., 2024): después de que el modelo se mejora usando STAT para abordar las brechas de habilidades, GRPO continúa agregando ganancias adicionales. Concluimos que el entrenamiento adaptativo dirigido a habilidades debería mejorar ampliamente los flujos de entrenamiento actuales. Nuestro código está disponible en: https://github.com/princeton-pli/STAT.
English
Language models often show little to no improvement (i.e., "saturation") when
trained via vanilla supervised fine-tuning (SFT) on data similar to what they
saw in their training set (e.g., MATH). We introduce a new fine-tuning
strategy, STAT, to train such a student model by using the metacognition
ability of a stronger large language model (LLM) as the teacher. The teacher
uses the task dataset to create a list of skills needed for the task, and then
labels each data point with its required skills (Didolkar et al., 2024). By
monitoring the student's answers, the teacher creates a Missing-Skill-Profile
for the student, tracking how often they failed to apply each skill in their
responses. We use this idea to build a modified training set in one of two
ways. In STAT-Sel, the teacher uses an existing set of training examples but
adaptively reweights them according to the Missing-Skill-Profile. In STAT-Syn,
the teacher synthesizes additional examples involving missing skills. Across
extensive experiments on Llama and Qwen models, our methods yield improvements
of up to 7.5% on MATH, whereas SFT provides only limited gains. Furthermore,
STAT enhances performance on out-of-distribution benchmarks (e.g., AIME24/25,
AMC23, etc.) by an average of 4.6%. Crucially, we find that STAT is
complementary to RL via GRPO (Shao et al., 2024): after the model is improved
using STAT to address skill gaps, GRPO continues to add further gains. We
conclude that skill-targeted adaptive training should broadly improve current
training pipelines. Our code is available at:
https://github.com/princeton-pli/STAT.