ChatPaper.aiChatPaper

モデルは最適なノイズを既に知っている:ビデオ拡散モデルにおけるアテンションを介したベイジアン能動的ノイズ選択

Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model

May 23, 2025
著者: Kwanyoung Kim, Sanghyun Kim
cs.AI

要旨

初期ノイズの選択は、ビデオ拡散モデルの品質とプロンプトの整合性に大きく影響を与える。同じプロンプトに対して異なるノイズシードを使用すると、生成結果が大幅に異なる場合がある。最近の手法では、周波数フィルタやフレーム間の平滑化など、外部で設計された事前情報に依存しているが、どのノイズシードが本質的に好ましいかを示す内部モデルの信号を見落とすことが多い。この問題に対処するため、我々はANSE(Active Noise Selection for Generation)を提案する。これは、注意ベースの不確実性を定量化することで高品質なノイズシードを選択するモデル認識型フレームワークである。その中核となるのはBANSA(Bayesian Active Noise Selection via Attention)であり、複数の確率的注意サンプル間のエントロピーの不一致を測定してモデルの信頼性と一貫性を推定する取得関数である。効率的な推論時の展開のために、BANSAのベルヌーイマスク近似を導入し、単一の拡散ステップと注意層のサブセットを使用してスコア推定を可能にする。CogVideoX-2Bおよび5Bでの実験により、ANSEが推論時間をそれぞれ8%および13%増加させるだけでビデオ品質と時間的整合性を向上させることが示され、ビデオ拡散におけるノイズ選択の原則的かつ汎用的なアプローチを提供する。プロジェクトページはこちら:https://anse-project.github.io/anse-project/
English
The choice of initial noise significantly affects the quality and prompt alignment of video diffusion models, where different noise seeds for the same prompt can lead to drastically different generations. While recent methods rely on externally designed priors such as frequency filters or inter-frame smoothing, they often overlook internal model signals that indicate which noise seeds are inherently preferable. To address this, we propose ANSE (Active Noise Selection for Generation), a model-aware framework that selects high-quality noise seeds by quantifying attention-based uncertainty. At its core is BANSA (Bayesian Active Noise Selection via Attention), an acquisition function that measures entropy disagreement across multiple stochastic attention samples to estimate model confidence and consistency. For efficient inference-time deployment, we introduce a Bernoulli-masked approximation of BANSA that enables score estimation using a single diffusion step and a subset of attention layers. Experiments on CogVideoX-2B and 5B demonstrate that ANSE improves video quality and temporal coherence with only an 8% and 13% increase in inference time, respectively, providing a principled and generalizable approach to noise selection in video diffusion. See our project page: https://anse-project.github.io/anse-project/

Summary

AI-Generated Summary

PDF293May 26, 2025