UniSD: Hacia un Marco Unificado de Auto-Distilación para Modelos de Lenguaje a Gran Escala

Resumen

La auto-distilación (SD) ofrece un camino prometedor para adaptar modelos de lenguaje grandes (LLMs) sin depender de maestros externos más potentes. Sin embargo, la SD en LLMs auto-regresivos sigue siendo un desafío debido a que las trayectorias auto-generadas son de forma libre, la corrección depende de la tarea, y las racionalizaciones plausibles pueden proporcionar supervisión inestable o poco confiable. Los métodos existentes principalmente examinan decisiones de diseño aisladas, dejando su efectividad, roles e interacciones poco claros. En este artículo, proponemos UniSD, un marco unificado para estudiar sistemáticamente la auto-distilación. UniSD integra mecanismos complementarios que abordan la confiabilidad de la supervisión, alineación de representaciones y estabilidad del entrenamiento, incluyendo acuerdo multi-maestro, estabilización de maestro EMA, aprendizaje contrastivo a nivel de tokens, emparejamiento de características y recorte de divergencia. A través de seis benchmarks y seis modelos de tres familias de modelos, UniSD revela cuándo la auto-distilación supera la imitación estática, qué componentes impulsan las mejoras y cómo estos componentes interactúan entre tareas. Guiados por estos hallazgos, construimos UniSDfull, una canalización integrada que combina componentes complementarios y logra el mejor rendimiento general, mejorando el modelo base en +5.4 puntos y el mejor baseline en +2.8 puntos. Una evaluación exhaustiva destaca la auto-distilación como un enfoque práctico y direccionable para la adaptación eficiente de LLMs sin maestros externos más potentes.

English

Self-distillation (SD) offers a promising path for adapting large language models (LLMs) without relying on stronger external teachers. However, SD in autoregressive LLMs remains challenging because self-generated trajectories are free-form, correctness is task-dependent, and plausible rationales can still provide unstable or unreliable supervision. Existing methods mainly examine isolated design choices, leaving their effectiveness, roles, and interactions unclear. In this paper, we propose UniSD, a unified framework to systematically study self-distillation. UniSD integrates complementary mechanisms that address supervision reliability, representation alignment, and training stability, including multi-teacher agreement, EMA teacher stabilization, token-level contrastive learning, feature matching, and divergence clipping. Across six benchmarks and six models from three model families, UniSD reveals when self-distillation improves over static imitation, which components drive the gains, and how these components interact across tasks. Guided by these insights, we construct UniSDfull, an integrated pipeline that combines complementary components and achieves the strongest overall performance, improving over the base model by +5.4 points and the strongest baseline by +2.8 points. Extensive evaluation highlights self-distillation as a practical and steerable approach for efficient LLM adaptation without stronger external teachers.

UniSD: Hacia un Marco Unificado de Auto-Distilación para Modelos de Lenguaje a Gran Escala

UniSD: Towards a Unified Self-Distillation Framework for Large Language Models

Resumen

Support