La trayectoria como maestro: Emparejamiento de flujo discreto de pocos pasos mediante destilación navegada por energía

Resumen

El discrete flow matching genera texto transformando iterativamente tokens de ruido en lenguaje coherente, pero puede requerir cientos de pases hacia adelante. La destilación utiliza la trayectoria de múltiples pasos para entrenar a un estudiante a reproducir el proceso en pocos pasos. Cuando el estudiante rinde por debajo de lo esperado, la explicación habitual es una capacidad insuficiente. Argumentamos lo contrario: la trayectoria es el cuello de botella, no el estudiante. Cada trayectoria de entrenamiento se construye mediante una cadena de saltos estocásticos ciegos sin evaluación de la calidad de la secuencia; una única mala decisión en un punto intermedio temprano se propaga a través de los pasos subsiguientes, pero el estudiante debe imitar el resultado. Trajectory-Shaped Discrete Flow Matching (TS-DFM) reemplaza estos saltos ciegos con una navegación guiada: una brújula de energía ligera evalúa las continuaciones candidatas en cada punto intermedio, seleccionando la más coherente. Todo el modelado (shaping) es solo durante el entrenamiento; el costo de inferencia no cambia. En modelado de lenguaje con 170 millones de parámetros, el estudiante modelado (shaped) en 8 pasos logra una perplejidad 32% menor que el profesor de 1,024 pasos, siendo 128 veces más rápido, con ganancias consistentes en todas las distribuciones fuente y tres evaluadores de escala creciente. TS-DFM logra la mejor perplejidad de cualquier línea base de generación discreta con la que lo comparamos, incluidos métodos entrenados con 6 veces más datos o que usan modelos 5 veces más grandes.

English

Discrete flow matching generates text by iteratively transforming noise tokens into coherent language, but may require hundreds of forward passes. Distillation uses the multi-step trajectory to train a student to reproduce the process in a few steps. When the student underperforms, the usual explanation is insufficient capacity. We argue the opposite: the trajectory is the bottleneck, not the student. Each training trajectory is built through a chain of blind stochastic jumps with no evaluation of sequence quality; a single bad decision at an early midpoint propagates through subsequent steps, yet the student must imitate the result. Trajectory-Shaped Discrete Flow Matching (TS-DFM) replaces these blind jumps with guided navigation: a lightweight energy compass evaluates candidate continuations at each midpoint, selecting the most coherent. All shaping is training-only; inference cost is unchanged. On 170M-parameter language modeling, the shaped student at 8 steps achieves 32% lower perplexity than the 1,024-step teacher while being 128x faster, with gains consistent across source distributions and three evaluators of increasing scale. TS-DFM achieves the best perplexity of any discrete-generation baseline we compare against, including methods trained on 6x more data or using 5x larger models.

La trayectoria como maestro: Emparejamiento de flujo discreto de pocos pasos mediante destilación navegada por energía

Trajectory as the Teacher: Few-Step Discrete Flow Matching via Energy-Navigated Distillation

Resumen

Support