Un'Autodistillazione Sorprendentemente Semplice Migliora la Generazione di Codice

Abstract

Un modello linguistico di grandi dimensioni (LLM) può migliorare nella generazione di codice utilizzando esclusivamente i propri output grezzi, senza un verificatore, un modello insegnante o l'apprendimento per rinforzo? Rispondiamo affermativamente con l'auto-distillazione semplice (SSD): campioniamo soluzioni dal modello con specifiche configurazioni di temperatura e troncamento, per poi effettuare un fine-tuning standard supervisionato su tali campioni. SSD migliora Qwen3-30B-Instruct dal 42.4% al 55.3% di pass@1 su LiveCodeBench v6, con guadagni concentrati sui problemi più difficili, e generalizza attraverso i modelli Qwen e Llama alle scale 4B, 8B e 30B, includendo sia le varianti "instruct" che quelle "thinking". Per capire perché un metodo così semplice possa funzionare, ricolleghiamo questi miglioramenti a un conflitto precisione-esplorazione nella decodifica degli LLM e dimostriamo che SSD rimodella le distribuzioni di token in modo contestuale, sopprimendo le code distrattive dove la precisione è cruciale preservando al contempo la diversità utile dove l'esplorazione è importante. Nel complesso, SSD offre una direzione complementare di post-addestramento per migliorare la generazione di codice negli LLM.

English

Can a large language model (LLM) improve at code generation using only its own raw outputs, without a verifier, a teacher model, or reinforcement learning? We answer in the affirmative with simple self-distillation (SSD): sample solutions from the model with certain temperature and truncation configurations, then fine-tune on those samples with standard supervised fine-tuning. SSD improves Qwen3-30B-Instruct from 42.4% to 55.3% pass@1 on LiveCodeBench v6, with gains concentrating on harder problems, and it generalizes across Qwen and Llama models at 4B, 8B, and 30B scale, including both instruct and thinking variants. To understand why such a simple method can work, we trace these gains to a precision-exploration conflict in LLM decoding and show that SSD reshapes token distributions in a context-dependent way, suppressing distractor tails where precision matters while preserving useful diversity where exploration matters. Taken together, SSD offers a complementary post-training direction for improving LLM code generation.

Un'Autodistillazione Sorprendentemente Semplice Migliora la Generazione di Codice

Embarrassingly Simple Self-Distillation Improves Code Generation

Abstract

Support