Refinamiento de Errores de Condición en Generación Autoregresiva de Imágenes con Pérdida por Difusión
Condition Errors Refinement in Autoregressive Image Generation with Diffusion Loss
February 2, 2026
Autores: Yucheng Zhou, Hao Li, Jianbing Shen
cs.AI
Resumen
Estudios recientes han explorado modelos autorregresivos para la generación de imágenes, con resultados prometedores, y han combinado modelos de difusión con marcos autorregresivos para optimizar la generación de imágenes mediante pérdidas de difusión. En este estudio, presentamos un análisis teórico de los modelos de difusión y autorregresivos con pérdida de difusión, destacando las ventajas de estos últimos. Presentamos una comparación teórica de la difusión condicional y la difusión autorregresiva con pérdida de difusión, demostrando que la optimización por desruido de *patches* en los modelos autorregresivos mitiga eficazmente los errores de condición y conduce a una distribución de condición estable. Nuestro análisis también revela que la generación autorregresiva de la condición refina dicha condición, provocando que la influencia del error de condición decaiga exponencialmente. Además, introducimos un novedoso enfoque de refinamiento de condición basado en la teoría del Transporte Óptimo (TO) para abordar la "inconsistencia de condición". Demostramos teóricamente que formular el refinamiento de condición como un Flujo Gradiente de Wasserstein garantiza la convergencia hacia la distribución de condición ideal, mitigando eficazmente la inconsistencia de condición. Los experimentos demuestran la superioridad de nuestro método sobre los modelos de difusión y autorregresivos que utilizan métodos con pérdida de difusión.
English
Recent studies have explored autoregressive models for image generation, with promising results, and have combined diffusion models with autoregressive frameworks to optimize image generation via diffusion losses. In this study, we present a theoretical analysis of diffusion and autoregressive models with diffusion loss, highlighting the latter's advantages. We present a theoretical comparison of conditional diffusion and autoregressive diffusion with diffusion loss, demonstrating that patch denoising optimization in autoregressive models effectively mitigates condition errors and leads to a stable condition distribution. Our analysis also reveals that autoregressive condition generation refines the condition, causing the condition error influence to decay exponentially. In addition, we introduce a novel condition refinement approach based on Optimal Transport (OT) theory to address ``condition inconsistency''. We theoretically demonstrate that formulating condition refinement as a Wasserstein Gradient Flow ensures convergence toward the ideal condition distribution, effectively mitigating condition inconsistency. Experiments demonstrate the superiority of our method over diffusion and autoregressive models with diffusion loss methods.