Modelos de Normalización de Trayectorias

Resumen

Los modelos basados en difusión descomponen el muestreo en muchos pasos pequeños de eliminación de ruido gaussiano — una suposición que falla cuando la generación se comprime en pocas transiciones gruesas. Los métodos existentes de pocos pasos abordan esto mediante destilación, entrenamiento de consistencia u objetivos adversarios, pero sacrifican el marco de verosimilitud en el proceso. Presentamos los Modelos de Trayectoria Normalizada (NTM, por sus siglas en inglés), que modelan cada paso inverso como un flujo normalizante condicional expresivo con entrenamiento de verosimilitud exacta. Arquitectónicamente, NTM combina bloques invertibles superficiales dentro de cada paso con un predictor paralelo profundo a lo largo de la trayectoria, formando una red de extremo a extremo entrenable desde cero o inicializable a partir de modelos preentrenados de flujo coincidente. Su verosimilitud exacta de trayectoria permite además la auto-destilación: un eliminador de ruido ligero entrenado con la propia puntuación del modelo produce muestras de alta calidad en cuatro pasos. En benchmarks de generación de imágenes a partir de texto, NTM iguala o supera a los baselines fuertes de generación de imágenes en solo cuatro pasos de muestreo, manteniendo de manera única la verosimilitud exacta sobre la trayectoria generativa.

English

Diffusion-based models decompose sampling into many small Gaussian denoising steps -- an assumption that breaks down when generation is compressed to a few coarse transitions. Existing few-step methods address this through distillation, consistency training, or adversarial objectives, but sacrifice the likelihood framework in the process. We introduce Normalizing Trajectory Models (NTM), which models each reverse step as an expressive conditional normalizing flow with exact likelihood training. Architecturally, NTM combines shallow invertible blocks within each step with a deep parallel predictor across the trajectory, forming an end-to-end network trainable from scratch or initializable from pretrained flow-matching models. Its exact trajectory likelihood further enables self-distillation: a lightweight denoiser trained on the model's own score produces high-quality samples in four steps. On text-to-image benchmarks, NTM matches or outperforms strong image generation baselines in just four sampling steps while uniquely retaining exact likelihood over the generative trajectory.