ChatPaper.aiChatPaper

Opvallend Eenvoudige Zelfdistillatie Verbeterd Codegeneratie

Embarrassingly Simple Self-Distillation Improves Code Generation

April 1, 2026
Auteurs: Ruixiang Zhang, Richard He Bai, Huangjie Zheng, Navdeep Jaitly, Ronan Collobert, Yizhe Zhang
cs.AI

Samenvatting

Kan een groot taalmodel (LLM) beter worden in codegeneratie door alleen zijn eigen ruwe outputs te gebruiken, zonder verificator, een leraarmodel of reinforcement learning? Wij beantwoorden deze vraag bevestigend met eenvoudige zelf-distillatie (SSD): we sample oplossingen van het model met bepaalde temperatuur- en truncatieconfiguraties, en fine-tunen vervolgens op die samples met standaard supervised fine-tuning. SSD verbetert Qwen3-30B-Instruct van 42.4% naar 55.3% pass@1 op LiveCodeBench v6, waarbij de winst zich concentreert op moeilijkere problemen, en het generaliseert over Qwen- en Llama-modellen op 4B, 8B en 30B schaal, inclusief zowel instruct- als denkvarianten. Om te begrijpen waarom zo'n eenvoudige methode kan werken, herleiden we deze winst naar een precisie-exploratieconflict in LLM-decodering en tonen we aan dat SSD tokenverdelingen op een contextafhankelijke manier hervormt, waarbij het afleidende staarten onderdrukt waar precisie belangrijk is, terwijl het nuttige diversiteit behoudt waar exploratie belangrijk is. Samengevat biedt SSD een complementaire richting voor post-training om LLM-codegeneratie te verbeteren.
English
Can a large language model (LLM) improve at code generation using only its own raw outputs, without a verifier, a teacher model, or reinforcement learning? We answer in the affirmative with simple self-distillation (SSD): sample solutions from the model with certain temperature and truncation configurations, then fine-tune on those samples with standard supervised fine-tuning. SSD improves Qwen3-30B-Instruct from 42.4% to 55.3% pass@1 on LiveCodeBench v6, with gains concentrating on harder problems, and it generalizes across Qwen and Llama models at 4B, 8B, and 30B scale, including both instruct and thinking variants. To understand why such a simple method can work, we trace these gains to a precision-exploration conflict in LLM decoding and show that SSD reshapes token distributions in a context-dependent way, suppressing distractor tails where precision matters while preserving useful diversity where exploration matters. Taken together, SSD offers a complementary post-training direction for improving LLM code generation.
PDF91April 3, 2026