Траектория как учитель: малошаговое дискретное согласование потоков через энерго-направленную дистилляцию

Аннотация

Дискретный потоковый матчинг генерирует текст путем итеративного преобразования шумовых токенов в связный язык, но может требовать сотен прямых проходов. Дистилляция использует многошаговую траекторию для обучения студента воспроизводить процесс за несколько шагов. Если студент показывает низкую производительность, обычным объяснением является недостаточная емкость модели. Мы утверждаем обратное: узким местом является траектория, а не студент. Каждая тренировочная траектория строится через цепочку слепых стохастических скачков без оценки качества последовательности; одно неверное решение на раннем промежуточном этапе распространяется на последующие шаги, однако студент должен имитировать результат. Траекторно-формируемый дискретный потоковый матчинг (TS-DFM) заменяет эти слепые скачки управляемой навигацией: легковесный энергетический компас оценивает возможные продолжения на каждом промежуточном этапе, выбирая наиболее связное. Все формирование происходит только на этапе обучения; затраты на инференс не меняются. При моделировании языка с 170 миллионами параметров формируемый студент за 8 шагов достигает на 32% более низкой перплексии, чем учитель за 1024 шага, при этом работая в 128 раз быстрее, причем улучшения стабильны для разных исходных распределений и трех оценщиков возрастающего масштаба. TS-DFM достигает наилучшей перплексии среди всех сравниваемых базовых методов дискретной генерации, включая методы, обученные на в 6 раз большем объеме данных или использующие в 5 раз более крупные модели.

English

Discrete flow matching generates text by iteratively transforming noise tokens into coherent language, but may require hundreds of forward passes. Distillation uses the multi-step trajectory to train a student to reproduce the process in a few steps. When the student underperforms, the usual explanation is insufficient capacity. We argue the opposite: the trajectory is the bottleneck, not the student. Each training trajectory is built through a chain of blind stochastic jumps with no evaluation of sequence quality; a single bad decision at an early midpoint propagates through subsequent steps, yet the student must imitate the result. Trajectory-Shaped Discrete Flow Matching (TS-DFM) replaces these blind jumps with guided navigation: a lightweight energy compass evaluates candidate continuations at each midpoint, selecting the most coherent. All shaping is training-only; inference cost is unchanged. On 170M-parameter language modeling, the shaped student at 8 steps achieves 32% lower perplexity than the 1,024-step teacher while being 128x faster, with gains consistent across source distributions and three evaluators of increasing scale. TS-DFM achieves the best perplexity of any discrete-generation baseline we compare against, including methods trained on 6x more data or using 5x larger models.

Траектория как учитель: малошаговое дискретное согласование потоков через энерго-направленную дистилляцию

Trajectory as the Teacher: Few-Step Discrete Flow Matching via Energy-Navigated Distillation

Аннотация

Support