拡散損失を用いた自己回帰的画像生成における条件誤差の洗練
Condition Errors Refinement in Autoregressive Image Generation with Diffusion Loss
February 2, 2026
著者: Yucheng Zhou, Hao Li, Jianbing Shen
cs.AI
要旨
近年、画像生成における自己回帰モデルの研究が進み、有望な成果が報告されている。また、拡散モデルと自己回帰フレームワークを組み合わせ、拡散損失による画像生成の最適化が図られている。本研究では、拡散損失を伴う拡散モデルと自己回帰モデルの理論分析を行い、後者の利点を明らかにする。条件付き拡散モデルと拡散損失を伴う自己回帰的拡散モデルの理論比較により、自己回帰モデルにおけるパッチノイズ除去最適化が条件誤差を効果的に軽減し、安定した条件分布をもたらすことを示す。さらに、自己回帰的条件生成が条件を洗練させ、条件誤差の影響が指数関数的に減衰することを理論的に明らかにする。加えて、「条件の不整合」問題に対処するため、最適輸送理論に基づく新しい条件洗練手法を提案する。条件洗練をワッサースタイン勾配流として定式化することで、理想的な条件分布への収束が保証され、条件の不整合が効果的に緩和されることを理論的に示す。実験により、本手法が拡散損失を伴う拡散モデル及び自己回帰モデルを上回る性能を発揮することを実証する。
English
Recent studies have explored autoregressive models for image generation, with promising results, and have combined diffusion models with autoregressive frameworks to optimize image generation via diffusion losses. In this study, we present a theoretical analysis of diffusion and autoregressive models with diffusion loss, highlighting the latter's advantages. We present a theoretical comparison of conditional diffusion and autoregressive diffusion with diffusion loss, demonstrating that patch denoising optimization in autoregressive models effectively mitigates condition errors and leads to a stable condition distribution. Our analysis also reveals that autoregressive condition generation refines the condition, causing the condition error influence to decay exponentially. In addition, we introduce a novel condition refinement approach based on Optimal Transport (OT) theory to address ``condition inconsistency''. We theoretically demonstrate that formulating condition refinement as a Wasserstein Gradient Flow ensures convergence toward the ideal condition distribution, effectively mitigating condition inconsistency. Experiments demonstrate the superiority of our method over diffusion and autoregressive models with diffusion loss methods.