Emparejamiento Inductivo de Momentos

Resumen

Los modelos de difusión y Flow Matching generan muestras de alta calidad pero son lentos en la inferencia, y su destilación en modelos de pocos pasos a menudo conduce a inestabilidad y ajustes extensos. Para resolver estos compromisos, proponemos Inductive Moment Matching (IMM), una nueva clase de modelos generativos para muestreo en uno o pocos pasos con un procedimiento de entrenamiento de una sola etapa. A diferencia de la destilación, IMM no requiere inicialización mediante preentrenamiento ni optimización de dos redes; y a diferencia de los Consistency Models, IMM garantiza convergencia a nivel de distribución y se mantiene estable bajo diversos hiperparámetros y arquitecturas de modelos estándar. IMM supera a los modelos de difusión en ImageNet-256x256 con un FID de 1.99 utilizando solo 8 pasos de inferencia y logra un FID de 2 pasos de 1.98 en CIFAR-10, estableciendo un nuevo estado del arte para un modelo entrenado desde cero.

English

Diffusion models and Flow Matching generate high-quality samples but are slow at inference, and distilling them into few-step models often leads to instability and extensive tuning. To resolve these trade-offs, we propose Inductive Moment Matching (IMM), a new class of generative models for one- or few-step sampling with a single-stage training procedure. Unlike distillation, IMM does not require pre-training initialization and optimization of two networks; and unlike Consistency Models, IMM guarantees distribution-level convergence and remains stable under various hyperparameters and standard model architectures. IMM surpasses diffusion models on ImageNet-256x256 with 1.99 FID using only 8 inference steps and achieves state-of-the-art 2-step FID of 1.98 on CIFAR-10 for a model trained from scratch.