Pourquoi l'auto-distillation dégrade-t-elle (parfois) la capacité de raisonnement des LLM ?

Résumé

L'auto-distillation est apparue comme un paradigme efficace en post-formation pour les LLM, améliorant souvent les performances tout en raccourcissant les traces de raisonnement. Cependant, dans le raisonnement mathématique, nous constatons qu'elle peut réduire la longueur des réponses tout en dégradant les performances. Nous attribuons cette dégradation à la suppression de la verbalisation épistémique - l'expression par le modèle de son incertitude durant le raisonnement. Par des expériences contrôlées faisant varier la richesse du contexte de conditionnement et la couverture des tâches, nous montrons que conditionner l'enseignant sur des informations riches supprime l'expression de l'incertitude, permettant une optimisation rapide en domaine connu avec une couverture limitée des tâches, mais nuisant aux performances hors domaine, où les problèmes non vus bénéficient de l'expression de l'incertitude et d'un ajustement correspondant. Sur Qwen3-8B, DeepSeek-Distill-Qwen-7B et Olmo3-7B-Instruct, nous observons des baisses de performances allant jusqu'à 40 %. Nos résultats soulignent qu'exposer des niveaux appropriés d'incertitude est crucial pour un raisonnement robuste et soulignent l'importance d'optimiser le comportement de raisonnement au-delà du simple renforcement des traces de réponses correctes.

English

Self-distillation has emerged as an effective post-training paradigm for LLMs, often improving performance while shortening reasoning traces. However, in mathematical reasoning, we find that it can reduce response length while degrading performance. We trace this degradation to the suppression of epistemic verbalization - the model's expression of uncertainty during reasoning. Through controlled experiments varying conditioning context richness and task coverage, we show that conditioning the teacher on rich information suppresses uncertainty expression, enabling rapid in-domain optimization with limited task coverage but harming OOD performance, where unseen problems benefit from expressing uncertainty and adjusting accordingly. Across Qwen3-8B, DeepSeek-Distill-Qwen-7B, and Olmo3-7B-Instruct, we observe performance drops of up to 40%. Our findings highlight that exposing appropriate levels of uncertainty is crucial for robust reasoning and underscore the importance of optimizing reasoning behavior beyond merely reinforcing correct answer traces.

Pourquoi l'auto-distillation dégrade-t-elle (parfois) la capacité de raisonnement des LLM ?

Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?

Résumé

Support