Modèles de normalisation de trajectoire

Résumé

Les modèles fondés sur la diffusion décomposent l'échantillonnage en nombreuses petites étapes de débruitage gaussien — une hypothèse qui devient caduque lorsque la génération est comprimée en quelques transitions grossières. Les méthodes existantes à peu d'étapes abordent ce problème par distillation, apprentissage par cohérence ou objectifs adversariaux, mais sacrifient le cadre de vraisemblance dans le processus. Nous introduisons les Normalizing Trajectory Models (NTM), qui modélisent chaque étape inverse comme un flux normalisant conditionnel expressif avec un apprentissage exact de la vraisemblance. Sur le plan architectural, NTM combine des blocs inversibles peu profonds à chaque étape avec un prédicteur parallèle profond sur l'ensemble de la trajectoire, formant un réseau de bout en bout pouvant être entraîné de zéro ou initialisé à partir de modèles de correspondance de flux pré-entraînés. Sa vraisemblance exacte de trajectoire permet en outre l'auto-distillation : un débruitage léger entraîné sur le propre score du modèle produit des échantillons de haute qualité en quatre étapes. Sur les bancs d'essai texte-à-image, NTM égale ou dépasse les bases de référence solides en génération d'images en seulement quatre étapes d'échantillonnage, tout en conservant de manière unique la vraisemblance exacte sur la trajectoire générative.

English

Diffusion-based models decompose sampling into many small Gaussian denoising steps -- an assumption that breaks down when generation is compressed to a few coarse transitions. Existing few-step methods address this through distillation, consistency training, or adversarial objectives, but sacrifice the likelihood framework in the process. We introduce Normalizing Trajectory Models (NTM), which models each reverse step as an expressive conditional normalizing flow with exact likelihood training. Architecturally, NTM combines shallow invertible blocks within each step with a deep parallel predictor across the trajectory, forming an end-to-end network trainable from scratch or initializable from pretrained flow-matching models. Its exact trajectory likelihood further enables self-distillation: a lightweight denoiser trained on the model's own score produces high-quality samples in four steps. On text-to-image benchmarks, NTM matches or outperforms strong image generation baselines in just four sampling steps while uniquely retaining exact likelihood over the generative trajectory.