Peinlich einfache Selbst-Distillation verbessert die Codegenerierung.
Embarrassingly Simple Self-Distillation Improves Code Generation
April 1, 2026
Autoren: Ruixiang Zhang, Richard He Bai, Huangjie Zheng, Navdeep Jaitly, Ronan Collobert, Yizhe Zhang
cs.AI
Zusammenfassung
Kann ein großes Sprachmodell (LLM) seine Fähigkeiten zur Code-Generierung nur mit seinen eigenen Rohausgaben verbessern – ohne Verifizierer, Lehrermodell oder bestärkendes Lernen? Wir bejahen dies mit einfacher Selbst-Distillation (SSD): Es werden Lösungsvorschläge aus dem Modell mit bestimmten Temperatur- und Trunkierungseinstellungen gesampelt, dann wird das Modell auf diesen Stichproben mit standardmäßigem überwachtem Fine-Tuning feinabgestimmt. SSD verbessert Qwen3-30B-Instruct von 42,4 % auf 55,3 % pass@1 auf LiveCodeBench v6, wobei die Gewinne sich auf schwierigere Probleme konzentrieren, und die Methode verallgemeinert sich über Qwen- und Llama-Modelle mit 4B, 8B und 30B Parametern, einschließlich sowohl Instruct- als auch Denk-Varianten. Um zu verstehen, warum eine so einfache Methode funktionieren kann, führen wir diese Verbesserungen auf einen Präzisions-Explorations-Konflikt in der LLM-Decodierung zurück und zeigen, dass SSD Token-Verteilungen kontextabhängig umformt: Es unterdrückt ablenkende Ausläufer, wo Präzision wichtig ist, und bewahrt gleichzeitig nützliche Vielfalt, wo Exploration wichtig ist. Zusammengenommen bietet SSD eine komplementäre Richtung nach dem Training, um die Code-Generierung von LLMs zu verbessern.
English
Can a large language model (LLM) improve at code generation using only its own raw outputs, without a verifier, a teacher model, or reinforcement learning? We answer in the affirmative with simple self-distillation (SSD): sample solutions from the model with certain temperature and truncation configurations, then fine-tune on those samples with standard supervised fine-tuning. SSD improves Qwen3-30B-Instruct from 42.4% to 55.3% pass@1 on LiveCodeBench v6, with gains concentrating on harder problems, and it generalizes across Qwen and Llama models at 4B, 8B, and 30B scale, including both instruct and thinking variants. To understand why such a simple method can work, we trace these gains to a precision-exploration conflict in LLM decoding and show that SSD reshapes token distributions in a context-dependent way, suppressing distractor tails where precision matters while preserving useful diversity where exploration matters. Taken together, SSD offers a complementary post-training direction for improving LLM code generation.