UniSD: Zu einem vereinheitlichten Selbst-Distillations-Framework für große Sprachmodelle

Zusammenfassung

Selbst-Destillation (SD) bietet einen vielversprechenden Ansatz zur Anpassung großer Sprachmodelle (Large Language Models, LLMs), ohne auf stärkere externe Lehrer angewiesen zu sein. Allerdings bleibt SD bei autoregressiven LLMs herausfordernd, da selbsterzeugte Trajektorien frei formuliert sind, die Korrektheit aufgabenabhängig ist und plausible Begründungen dennoch eine instabile oder unzuverlässige Überwachung bieten können. Bestehende Methoden untersuchen hauptsächlich isolierte Designentscheidungen, sodass deren Wirksamkeit, Rollen und Wechselwirkungen unklar bleiben. In diesem Papier schlagen wir UniSD vor, ein einheitliches Framework zur systematischen Untersuchung von Selbst-Destillation. UniSD integriert komplementäre Mechanismen, die sich mit der Zuverlässigkeit der Überwachung, der Repräsentationsausrichtung und der Trainingsstabilität befassen, darunter Multi-Teacher-Agreement, EMA-Teacher-Stabilisierung, tokenweises kontrastives Lernen, Feature Matching und Divergenz-Clipping. Über sechs Benchmarks und sechs Modelle aus drei Modellfamilien hinweg zeigt UniSD auf, wann Selbst-Destillation eine Verbesserung gegenüber statischer Imitation darstellt, welche Komponenten die Leistungssteigerungen bewirken und wie diese Komponenten über Aufgaben hinweg interagieren. Basierend auf diesen Erkenntnissen konstruieren wir UniSDfull, eine integrierte Pipeline, die komplementäre Komponenten kombiniert und die insgesamt stärkste Leistung erzielt, mit einer Verbesserung um +5,4 Punkte gegenüber dem Basismodell und +2,8 Punkte gegenüber der stärksten Baseline. Umfangreiche Evaluierungen heben Selbst-Destillation als praktischen und steuerbaren Ansatz für eine effiziente LLM-Anpassung ohne stärkere externe Lehrer hervor.

English

Self-distillation (SD) offers a promising path for adapting large language models (LLMs) without relying on stronger external teachers. However, SD in autoregressive LLMs remains challenging because self-generated trajectories are free-form, correctness is task-dependent, and plausible rationales can still provide unstable or unreliable supervision. Existing methods mainly examine isolated design choices, leaving their effectiveness, roles, and interactions unclear. In this paper, we propose UniSD, a unified framework to systematically study self-distillation. UniSD integrates complementary mechanisms that address supervision reliability, representation alignment, and training stability, including multi-teacher agreement, EMA teacher stabilization, token-level contrastive learning, feature matching, and divergence clipping. Across six benchmarks and six models from three model families, UniSD reveals when self-distillation improves over static imitation, which components drive the gains, and how these components interact across tasks. Guided by these insights, we construct UniSDfull, an integrated pipeline that combines complementary components and achieves the strongest overall performance, improving over the base model by +5.4 points and the strongest baseline by +2.8 points. Extensive evaluation highlights self-distillation as a practical and steerable approach for efficient LLM adaptation without stronger external teachers.

UniSD: Zu einem vereinheitlichten Selbst-Distillations-Framework für große Sprachmodelle

UniSD: Towards a Unified Self-Distillation Framework for Large Language Models

Zusammenfassung

Support