自己回帰型ビデオ拡散モデルの誤差分析:統一フレームワーク
Error Analyses of Auto-Regressive Video Diffusion Models: A Unified Framework
March 12, 2025
著者: Jing Wang, Fengzhuo Zhang, Xiaoli Li, Vincent Y. F. Tan, Tianyu Pang, Chao Du, Aixin Sun, Zhuoran Yang
cs.AI
要旨
様々な自己回帰型ビデオ拡散モデル(ARVDM)が、現実的な長尺ビデオの生成において顕著な成功を収めています。しかし、これらのモデルに関する理論的分析は依然として不足しています。本研究では、これらのモデルの理論的基盤を構築し、その洞察を活用して既存モデルの性能を向上させます。まず、既存のほとんどの手法を包含する統一フレームワークであるMeta-ARVDMを開発します。Meta-ARVDMを用いて、Meta-ARVDMによって生成されたビデオと真のビデオとの間のKLダイバージェンスを分析します。この分析により、ARVDMに内在する2つの重要な現象――誤差蓄積とメモリボトルネック――を明らかにします。情報理論的な不可能性の結果を導出することで、メモリボトルネック現象が避けられないことを示します。メモリボトルネックを緩和するために、より多くの過去フレームを明示的に利用する様々なネットワーク構造を設計します。また、フレームを圧縮することで、メモリボトルネックの緩和と推論効率の間のトレードオフを大幅に改善します。DMLabとMinecraftでの実験結果は、我々の手法の有効性を裏付けています。さらに、異なる手法間での誤差蓄積とメモリボトルネックのパレートフロンティアを実験的に示します。
English
A variety of Auto-Regressive Video Diffusion Models (ARVDM) have achieved
remarkable successes in generating realistic long-form videos. However,
theoretical analyses of these models remain scant. In this work, we develop
theoretical underpinnings for these models and use our insights to improve the
performance of existing models. We first develop Meta-ARVDM, a unified
framework of ARVDMs that subsumes most existing methods. Using Meta-ARVDM, we
analyze the KL-divergence between the videos generated by Meta-ARVDM and the
true videos. Our analysis uncovers two important phenomena inherent to ARVDM --
error accumulation and memory bottleneck. By deriving an information-theoretic
impossibility result, we show that the memory bottleneck phenomenon cannot be
avoided. To mitigate the memory bottleneck, we design various network
structures to explicitly use more past frames. We also achieve a significantly
improved trade-off between the mitigation of the memory bottleneck and the
inference efficiency by compressing the frames. Experimental results on DMLab
and Minecraft validate the efficacy of our methods. Our experiments also
demonstrate a Pareto-frontier between the error accumulation and memory
bottleneck across different methods.Summary
AI-Generated Summary