La Auto-Distilación Sorprendentemente Simple Mejora la Generación de Código

Resumen

¿Puede un modelo de lenguaje grande (LLM) mejorar en generación de código utilizando únicamente sus propias salidas brutas, sin un verificador, un modelo profesor o aprendizaje por refuerzo? Respondemos afirmativamente con la auto-destilación simple (SSD, por sus siglas en inglés): muestreamos soluciones del modelo con ciertas configuraciones de temperatura y truncamiento, y luego afinamos el modelo en esas muestras mediante ajuste fino supervisado estándar. SSD mejora a Qwen3-30B-Instruct del 42.4% al 55.3% en pass@1 en LiveCodeBench v6, concentrándose las ganancias en problemas más difíciles, y generaliza a través de modelos Qwen y Llama a escalas de 4B, 8B y 30B, incluyendo tanto variantes de instrucción como de razonamiento. Para entender por qué un método tan simple puede funcionar, rastreamos estas ganancias hasta un conflicto de precisión-exploración en la decodificación de LLMs y demostramos que SSD remodela las distribuciones de tokens de manera dependiente del contexto, suprimiendo las colas distractoras donde la precisión importa, mientras preserva la diversidad útil donde la exploración es importante. En conjunto, SSD ofrece una dirección complementaria post-entrenamiento para mejorar la generación de código en LLMs.

English

Can a large language model (LLM) improve at code generation using only its own raw outputs, without a verifier, a teacher model, or reinforcement learning? We answer in the affirmative with simple self-distillation (SSD): sample solutions from the model with certain temperature and truncation configurations, then fine-tune on those samples with standard supervised fine-tuning. SSD improves Qwen3-30B-Instruct from 42.4% to 55.3% pass@1 on LiveCodeBench v6, with gains concentrating on harder problems, and it generalizes across Qwen and Llama models at 4B, 8B, and 30B scale, including both instruct and thinking variants. To understand why such a simple method can work, we trace these gains to a precision-exploration conflict in LLM decoding and show that SSD reshapes token distributions in a context-dependent way, suppressing distractor tails where precision matters while preserving useful diversity where exploration matters. Taken together, SSD offers a complementary post-training direction for improving LLM code generation.

La Auto-Distilación Sorprendentemente Simple Mejora la Generación de Código

Embarrassingly Simple Self-Distillation Improves Code Generation

Resumen

Support