Normaliserende trajectmodellen

Samenvatting

Op diffusie gebaseerde modellen ontleden sampling in vele kleine Gaussiaanse ontruisingsstappen – een aanname die niet meer opgaat wanneer generatie wordt gecomprimeerd tot enkele grove overgangen. Bestaande methoden met weinig stappen pakken dit aan via distillatie, consistentietraining of adversariële doelstellingen, maar verliezen daarbij het waarschijnlijkheidskader uit het oog. Wij introduceren Normalizing Trajectory Models (NTM), die elke omgekeerde stap modelleert als een expressieve conditionele normaliserende flow met exacte waarschijnlijkheidstraining. Architecturaal combineert NTM ondiepe inverteerbare blokken binnen elke stap met een diepe parallelle voorspeller over het traject, wat resulteert in een end-to-end netwerk dat vanaf nul getraind of geïnitieerd kan worden vanuit voorgetrainde flow-matching modellen. De exacte trajectwaarschijnlijkheid maakt bovendien zelfdistillatie mogelijk: een lichte ontruiser getraind op de eigen score van het model levert in vier stappen hoogwaardige monsters op. Op tekst-naar-beeld benchmarks evenaart of overtreft NTM sterke beeldgeneratiebasislijnen in slechts vier samplingstappen, terwijl het uniek de exacte waarschijnlijkheid over het generatieve traject behoudt.

English

Diffusion-based models decompose sampling into many small Gaussian denoising steps -- an assumption that breaks down when generation is compressed to a few coarse transitions. Existing few-step methods address this through distillation, consistency training, or adversarial objectives, but sacrifice the likelihood framework in the process. We introduce Normalizing Trajectory Models (NTM), which models each reverse step as an expressive conditional normalizing flow with exact likelihood training. Architecturally, NTM combines shallow invertible blocks within each step with a deep parallel predictor across the trajectory, forming an end-to-end network trainable from scratch or initializable from pretrained flow-matching models. Its exact trajectory likelihood further enables self-distillation: a lightweight denoiser trained on the model's own score produces high-quality samples in four steps. On text-to-image benchmarks, NTM matches or outperforms strong image generation baselines in just four sampling steps while uniquely retaining exact likelihood over the generative trajectory.