Une auto-distillation d'une simplicité embarrassante améliore la génération de code

Résumé

Un modèle de langage de grande taille (LLM) peut-il s'améliorer en génération de code en utilisant uniquement ses propres sorties brutes, sans vérificateur, modèle enseignant ou apprentissage par renforcement ? Nous répondons par l'affirmative avec l'auto-distillation simple (SSD) : échantillonner des solutions à partir du modèle avec certaines configurations de température et de troncature, puis effectuer un fine-tuning supervisé standard sur ces échantillons. SSD améliore Qwen3-30B-Instruct de 42,4 % à 55,3 % en pass@1 sur LiveCodeBench v6, les gains se concentrant sur les problèmes plus difficiles, et il généralise à travers les modèles Qwen et Llama aux échelles 4B, 8B et 30B, incluant à la fois les variantes instruct et thinking. Pour comprendre pourquoi une méthode si simple peut fonctionner, nous retraçons ces gains à un conflit précision-exploration dans le décodage des LLM et montrons que SSD remodelle les distributions de tokens de manière contextuelle, supprimant les queues distractrices où la précision importe tout en préservant la diversité utile là où l'exploration compte. Ensemble, SSD offre une direction complémentaire de post-entraînement pour améliorer la génération de code des LLM.

English

Can a large language model (LLM) improve at code generation using only its own raw outputs, without a verifier, a teacher model, or reinforcement learning? We answer in the affirmative with simple self-distillation (SSD): sample solutions from the model with certain temperature and truncation configurations, then fine-tune on those samples with standard supervised fine-tuning. SSD improves Qwen3-30B-Instruct from 42.4% to 55.3% pass@1 on LiveCodeBench v6, with gains concentrating on harder problems, and it generalizes across Qwen and Llama models at 4B, 8B, and 30B scale, including both instruct and thinking variants. To understand why such a simple method can work, we trace these gains to a precision-exploration conflict in LLM decoding and show that SSD reshapes token distributions in a context-dependent way, suppressing distractor tails where precision matters while preserving useful diversity where exploration matters. Taken together, SSD offers a complementary post-training direction for improving LLM code generation.

Une auto-distillation d'une simplicité embarrassante améliore la génération de code

Embarrassingly Simple Self-Distillation Improves Code Generation

Résumé

Support