Modelos de Flujo Adversarios
Adversarial Flow Models
November 27, 2025
Autores: Shanchuan Lin, Ceyuan Yang, Zhijie Lin, Hao Chen, Haoqi Fan
cs.AI
Resumen
Presentamos los modelos de flujo adversarial, una clase de modelos generativos que unifica los modelos adversariales y los modelos de flujo. Nuestro método permite la generación nativa en una sola etapa o en múltiples etapas y se entrena utilizando el objetivo adversarial. A diferencia de los GAN tradicionales, donde el generador aprende un plan de transporte arbitrario entre las distribuciones de ruido y datos, nuestro generador aprende un mapeo determinístico de ruido a datos, que es el mismo transporte óptimo que en los modelos de *flow-matching*. Esto estabiliza significativamente el entrenamiento adversarial. Además, a diferencia de los métodos basados en consistencia, nuestro modelo aprende directamente la generación en una o pocas etapas sin necesidad de aprender los pasos intermedios del flujo de probabilidad para la propagación. Esto ahorra capacidad del modelo, reduce las iteraciones de entrenamiento y evita la acumulación de errores. Bajo la misma configuración de 1NFE en ImageNet-256px, nuestro modelo B/2 se acerca al rendimiento de los modelos basados en consistencia XL/2, mientras que nuestro modelo XL/2 establece un nuevo récord de FID de 2.38. Además, demostramos la posibilidad de entrenar modelos de 56 y 112 capas de extremo a extremo mediante repetición de profundidad sin ninguna supervisión intermedia, y logramos FIDs de 2.08 y 1.94 utilizando una sola pasada hacia adelante, superando a sus contrapartes de 2NFE y 4NFE.
English
We present adversarial flow models, a class of generative models that unifies adversarial models and flow models. Our method supports native one-step or multi-step generation and is trained using the adversarial objective. Unlike traditional GANs, where the generator learns an arbitrary transport plan between the noise and the data distributions, our generator learns a deterministic noise-to-data mapping, which is the same optimal transport as in flow-matching models. This significantly stabilizes adversarial training. Also, unlike consistency-based methods, our model directly learns one-step or few-step generation without needing to learn the intermediate timesteps of the probability flow for propagation. This saves model capacity, reduces training iterations, and avoids error accumulation. Under the same 1NFE setting on ImageNet-256px, our B/2 model approaches the performance of consistency-based XL/2 models, while our XL/2 model creates a new best FID of 2.38. We additionally show the possibility of end-to-end training of 56-layer and 112-layer models through depth repetition without any intermediate supervision, and achieve FIDs of 2.08 and 1.94 using a single forward pass, surpassing their 2NFE and 4NFE counterparts.