Induttivo Moment Matching
Inductive Moment Matching
March 10, 2025
Autori: Linqi Zhou, Stefano Ermon, Jiaming Song
cs.AI
Abstract
I modelli di diffusione e il Flow Matching generano campioni di alta qualità ma sono lenti nell'inferenza, e la loro distillazione in modelli a pochi passi spesso porta a instabilità e a un'estesa ottimizzazione. Per risolvere questi compromessi, proponiamo l'Inductive Moment Matching (IMM), una nuova classe di modelli generativi per il campionamento in uno o pochi passi con una procedura di addestramento in un'unica fase. A differenza della distillazione, l'IMM non richiede un'inizializzazione pre-addestrata e l'ottimizzazione di due reti; e a differenza dei Consistency Models, l'IMM garantisce la convergenza a livello di distribuzione e rimane stabile con vari iperparametri e architetture di modelli standard. L'IMM supera i modelli di diffusione su ImageNet-256x256 con un FID di 1,99 utilizzando solo 8 passi di inferenza e raggiunge uno stato dell'arte con un FID a 2 passi di 1,98 su CIFAR-10 per un modello addestrato da zero.
English
Diffusion models and Flow Matching generate high-quality samples but are slow
at inference, and distilling them into few-step models often leads to
instability and extensive tuning. To resolve these trade-offs, we propose
Inductive Moment Matching (IMM), a new class of generative models for one- or
few-step sampling with a single-stage training procedure. Unlike distillation,
IMM does not require pre-training initialization and optimization of two
networks; and unlike Consistency Models, IMM guarantees distribution-level
convergence and remains stable under various hyperparameters and standard model
architectures. IMM surpasses diffusion models on ImageNet-256x256 with 1.99 FID
using only 8 inference steps and achieves state-of-the-art 2-step FID of 1.98
on CIFAR-10 for a model trained from scratch.