Warum beeinträchtigt Selbst-Distillation (manchmal) die Denkfähigkeit von LLMs?
Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?
March 25, 2026
Autoren: Jeonghye Kim, Xufang Luo, Minbeom Kim, Sangmook Lee, Dohyung Kim, Jiwon Jeon, Dongsheng Li, Yuqing Yang
cs.AI
Zusammenfassung
Selbstdistillation hat sich als effektives Paradigma für das Nachtraining von LLMs etabliert, das oft die Leistung verbessert und gleichzeitig die Denkpfade verkürzt. Im Bereich des mathematischen Denkens stellen wir jedoch fest, dass es die Antwortlänge reduzieren kann, während es die Leistung verschlechtert. Wir führen diese Verschlechterung auf die Unterdrückung der epistemischen Verbalisierung zurück – dem Ausdruck von Unsicherheit durch das Modell während des Denkprozesses. Durch kontrollierte Experimente, die den Kontextreichtum der Konditionierung und die Aufgabenabdeckung variieren, zeigen wir, dass die Konditionierung des Lehrer-Modells auf umfangreiche Informationen den Unsicherheitsausdruck unterdrückt. Dies ermöglicht zwar eine schnelle Optimierung innerhalb der Domäne bei begrenzter Aufgabenabdeckung, schadet jedoch der Out-of-Distribution-Leistung (OOD), da ungesehene Probleme vom Ausdruck von Unsicherheit und entsprechender Anpassung profitieren. Bei Qwen3-8B, DeepSeek-Distill-Qwen-7B und Olmo3-7B-Instruct beobachten wir Leistungseinbußen von bis zu 40 %. Unsere Ergebnisse unterstreichen, dass das Aufzeigen angemessener Unsicherheitsniveaus entscheidend für robustes Denken ist und betonen die Bedeutung der Optimierung des Denkverhaltens über die bloße Verstärkung korrekter Antwortpfade hinaus.
English
Self-distillation has emerged as an effective post-training paradigm for LLMs, often improving performance while shortening reasoning traces. However, in mathematical reasoning, we find that it can reduce response length while degrading performance. We trace this degradation to the suppression of epistemic verbalization - the model's expression of uncertainty during reasoning. Through controlled experiments varying conditioning context richness and task coverage, we show that conditioning the teacher on rich information suppresses uncertainty expression, enabling rapid in-domain optimization with limited task coverage but harming OOD performance, where unseen problems benefit from expressing uncertainty and adjusting accordingly. Across Qwen3-8B, DeepSeek-Distill-Qwen-7B, and Olmo3-7B-Instruct, we observe performance drops of up to 40%. Our findings highlight that exposing appropriate levels of uncertainty is crucial for robust reasoning and underscore the importance of optimizing reasoning behavior beyond merely reinforcing correct answer traces.