La trajectoire comme enseignant : Appariement de flux discret en peu d'étapes via une distillation guidée par l'énergie

Résumé

L'appariement de flux discret génère du texte en transformant itérativement des jetons de bruit en langage cohérent, mais peut nécessiter des centaines de passes avant. La distillation utilise la trajectoire multi-étapes pour entraîner un élève à reproduire le processus en quelques étapes. Lorsque l'élève est sous-performant, l'explication habituelle est une capacité insuffisante. Nous soutenons le contraire : la trajectoire est le goulot d'étranglement, pas l'élève. Chaque trajectoire d'entraînement est construite via une chaîne de sauts stochastiques aveugles sans évaluation de la qualité de la séquence ; une seule mauvaise décision à un point intermédiaire précoce se propage à travers les étapes suivantes, mais l'élève doit imiter le résultat. L'appariement de flux discret à trajectoire façonnée (TS-DFM) remplace ces sauts aveugles par une navigation guidée : un compas énergétique léger évalue les continuations candidates à chaque point intermédiaire, sélectionnant la plus cohérente. Tout façonnement est limité à l'entraînement ; le coût d'inférence reste inchangé. Sur un modèle de langage de 170 millions de paramètres, l'élève façonné en 8 étapes atteint une perplexité 32 % inférieure à celle de l'enseignant en 1 024 étapes, tout en étant 128 fois plus rapide, avec des gains constants quelle que soit la distribution source et les trois évaluateurs de taille croissante. TS-DFM obtient la meilleure perplexité parmi toutes les références de génération discrète que nous comparons, y compris les méthodes entraînées sur 6 fois plus de données ou utilisant des modèles 5 fois plus grands.

English

Discrete flow matching generates text by iteratively transforming noise tokens into coherent language, but may require hundreds of forward passes. Distillation uses the multi-step trajectory to train a student to reproduce the process in a few steps. When the student underperforms, the usual explanation is insufficient capacity. We argue the opposite: the trajectory is the bottleneck, not the student. Each training trajectory is built through a chain of blind stochastic jumps with no evaluation of sequence quality; a single bad decision at an early midpoint propagates through subsequent steps, yet the student must imitate the result. Trajectory-Shaped Discrete Flow Matching (TS-DFM) replaces these blind jumps with guided navigation: a lightweight energy compass evaluates candidate continuations at each midpoint, selecting the most coherent. All shaping is training-only; inference cost is unchanged. On 170M-parameter language modeling, the shaped student at 8 steps achieves 32% lower perplexity than the 1,024-step teacher while being 128x faster, with gains consistent across source distributions and three evaluators of increasing scale. TS-DFM achieves the best perplexity of any discrete-generation baseline we compare against, including methods trained on 6x more data or using 5x larger models.

La trajectoire comme enseignant : Appariement de flux discret en peu d'étapes via une distillation guidée par l'énergie

Trajectory as the Teacher: Few-Step Discrete Flow Matching via Energy-Navigated Distillation

Résumé

Support