Wer sollte jetzt die Decodierung leiten? Verfolgung zuverlässiger Trajektorien für das Ensembling maskierter Diffusions-Sprachmodelle

Zusammenfassung

Maskierte Diffusions-Sprachmodelle (MDLMs) haben sich als eigenständiges Paradigma für die Sequenzgenerierung etabliert. Da MDLMs hinsichtlich ihrer Fähigkeiten und Wissensabdeckung zunehmend vielfältiger werden, stellt sich die wichtige Frage, wie ihr Wissen kombiniert werden kann. Hierzu untersuchen wir zunächst die einzigartigen Dekodierungsdynamiken von MDLMs. Wir stellen fest, dass erfolgreiche Generierungen stabile Konfidenzdynamiken über antwortrelevante Positionen hinweg aufweisen, während unzuverlässige Trajektorien oft durch die Injektion vielversprechender Zwischenzustände anderer Modelle korrigiert werden können. Ausgehend von dieser Beobachtung schlagen wir TIE (Trajektorienbasiertes Iteratives Ensembling) vor, ein Wissensfusionsframework, bei dem MDLMs iterativ zuverlässige Dekodierungstrajektorien identifizieren und diese zwischen Modellen weiterleiten. TIE verfolgt die Konfidenzdynamiken über antwortrelevante Positionen hinweg, um zu bestimmen, welches Modell aktuell einer zuverlässigeren Trajektorie folgt, und überträgt selektiv teilweise entrauschte Sequenzen zwischen den Modellen. Da sich das Modell auf der vielversprechenderen Trajektorie oft über die Entrauschungsschritte hinweg ändert, ermöglicht TIE verschiedenen Modellen, in verschiedenen Phasen der Generierung komplementäre Stärken beizutragen. Die starke Leistungsfähigkeit über verschiedene Reasoning-Aufgaben hinweg sowie unsere Analysen deuten darauf hin, dass TIE einen praktischen Ansatz für das wenig erforschte Problem des MDLM-Ensemblings bietet.

English

Masked Diffusion Language Models (MDLMs) have emerged as a distinct paradigm for sequence generation. As MDLMs become diverse in capabilities and knowledge coverage, an important question is how to combine their knowledge. Toward this, we first investigate the unique decoding dynamics of MDLMs. We find that successful generations exhibit stable confidence dynamics over answer-relevant positions, while unreliable trajectories can often be corrected by injecting promising intermediate states from other models. Guided by this observation, we propose TIE (Trajectory-based Iterative Ensembling), a knowledge fusion framework in which MDLMs iteratively identify reliable decoding trajectories and relay them across models. TIE tracks confidence dynamics over answer-relevant positions to determine which model currently follows a more reliable trajectory and selectively transfers partially denoised sequences across models. As the model on the more promising trajectory often changes across denoising steps, TIE allows different models to contribute complementary strengths at different stages of generation. Strong performance across diverse reasoning tasks, along with our analyses, suggests that TIE offers a practical approach to the underexplored problem of MDLM ensembling.