Trajektorie als Lehrer: Mehrschrittiges diskretes Fluss-Matching durch energiegesteuerte Destillation
Trajectory as the Teacher: Few-Step Discrete Flow Matching via Energy-Navigated Distillation
May 8, 2026
Autoren: Amin Karimi Monsefi, Dominic Culver, Nikhil Bhendawade, Manuel R. Ciosici, Yizhe Zhang, Irina Belousova
cs.AI
Zusammenfassung
Diskretes Flow Matching erzeugt Text, indem Rauschtokens iterativ in kohärente Sprache umgewandelt werden, erfordert jedoch möglicherweise hunderte Vorwärtsdurchläufe. Die Destillation nutzt die mehrschrittige Trajektorie, um einen Schüler zu trainieren, den Prozess in wenigen Schritten zu reproduzieren. Wenn der Schüler schlechter abschneidet, wird dies üblicherweise mit unzureichender Kapazität erklärt. Wir argumentieren das Gegenteil: Die Trajektorie ist der Engpass, nicht der Schüler. Jede Trainings-Trajektorie wird durch eine Kette blinder stochastischer Sprünge ohne Bewertung der Sequenzqualität aufgebaut; eine einzige schlechte Entscheidung zu einem frühen Zwischenpunkt überträgt sich auf nachfolgende Schritte, doch der Schüler muss das Ergebnis imitieren. Trajektorie-geformtes diskretes Flow Matching (TS-DFM) ersetzt diese blinden Sprünge durch eine geführte Navigation: Ein leichter Energiekompass bewertet Kandidatenfortsetzungen an jedem Zwischenpunkt und wählt die kohärenteste aus. Die Formung erfolgt ausschließlich während des Trainings; die Inferenzkosten bleiben unverändert. Bei der Sprachmodellierung mit 170 Millionen Parametern erreicht der geformte Schüler bei 8 Schritten eine um 32 % geringere Perplexität als der 1024-Schritt-Lehrer bei 128-facher Geschwindigkeit, mit konsistenten Verbesserungen über die Quellverteilungen und drei Bewerter zunehmender Größe hinweg. TS-DFM erzielt die beste Perplexität aller von uns verglichenen diskreten Generierungs-Baselines, einschließlich Methoden, die auf der 6-fachen Datenmenge trainiert wurden oder 5-mal größere Modelle verwenden.
English
Discrete flow matching generates text by iteratively transforming noise tokens into coherent language, but may require hundreds of forward passes. Distillation uses the multi-step trajectory to train a student to reproduce the process in a few steps. When the student underperforms, the usual explanation is insufficient capacity. We argue the opposite: the trajectory is the bottleneck, not the student. Each training trajectory is built through a chain of blind stochastic jumps with no evaluation of sequence quality; a single bad decision at an early midpoint propagates through subsequent steps, yet the student must imitate the result. Trajectory-Shaped Discrete Flow Matching (TS-DFM) replaces these blind jumps with guided navigation: a lightweight energy compass evaluates candidate continuations at each midpoint, selecting the most coherent. All shaping is training-only; inference cost is unchanged. On 170M-parameter language modeling, the shaped student at 8 steps achieves 32% lower perplexity than the 1,024-step teacher while being 128x faster, with gains consistent across source distributions and three evaluators of increasing scale. TS-DFM achieves the best perplexity of any discrete-generation baseline we compare against, including methods trained on 6x more data or using 5x larger models.