Waarom Vermindert Zelfdistillatie (Soms) het Redeneervermogen van LLM’s?

Samenvatting

Zelfdistillatie is naar voren gekomen als een effectief paradigma voor nafinetuning van grote taalmodelen, waarbij vaak de prestaties verbeteren terwijl de redeneersporen worden verkort. In wiskundig redeneren stellen we echter vast dat het de antwoordlengte kan verkorten terwijl de prestaties verslechteren. Wij herleiden deze achteruitgang tot de onderdrukking van epistemische verbalisatie – de uitdrukking van onzekerheid door het model tijdens het redeneren. Via gecontroleerde experimenten waarbij de rijkdom van de conditionerende context en de taakdekking worden gevarieerd, tonen we aan dat conditionering van de leraar op rijke informatie de onzekerheidsuitdrukking onderdrukt. Dit maakt snelle optimalisatie binnen het domein mogelijk bij beperkte taakdekking, maar schaadt de prestaties buiten het domein (out-of-distribution, OOD), waar ongeziene problemen baat hebben bij het uiten van onzekerheid en het dienovereenkomstig aanpassen. Bij Qwen3-8B, DeepSeek-Distill-Qwen-7B en Olmo3-7B-Instruct observeren we prestatieverliezen tot 40%. Onze bevindingen benadrukken dat het blootleggen van passende niveaus van onzekerheid cruciaal is voor robuust redeneren en onderstrepen het belang van het optimaliseren van redeneergedrag, verder dan het louter versterken van correcte antwoordsporen.

English

Self-distillation has emerged as an effective post-training paradigm for LLMs, often improving performance while shortening reasoning traces. However, in mathematical reasoning, we find that it can reduce response length while degrading performance. We trace this degradation to the suppression of epistemic verbalization - the model's expression of uncertainty during reasoning. Through controlled experiments varying conditioning context richness and task coverage, we show that conditioning the teacher on rich information suppresses uncertainty expression, enabling rapid in-domain optimization with limited task coverage but harming OOD performance, where unseen problems benefit from expressing uncertainty and adjusting accordingly. Across Qwen3-8B, DeepSeek-Distill-Qwen-7B, and Olmo3-7B-Instruct, we observe performance drops of up to 40%. Our findings highlight that exposing appropriate levels of uncertainty is crucial for robust reasoning and underscore the importance of optimizing reasoning behavior beyond merely reinforcing correct answer traces.

Waarom Vermindert Zelfdistillatie (Soms) het Redeneervermogen van LLM’s?

Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?

Samenvatting

Support