Le Modèle Connaît Déjà le Meilleur Bruit : Sélection Active Bayésienne du Bruit via l'Attention dans un Modèle de Diffusion Vidéo
Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model
May 23, 2025
Auteurs: Kwanyoung Kim, Sanghyun Kim
cs.AI
Résumé
Le choix du bruit initial influence significativement la qualité et l'alignement des modèles de diffusion vidéo, où différentes graines de bruit pour le même prompt peuvent conduire à des générations radicalement différentes. Bien que les méthodes récentes s'appuient sur des a priori conçus de manière externe, tels que des filtres de fréquence ou un lissage inter-images, elles négligent souvent les signaux internes du modèle qui indiquent quelles graines de bruit sont intrinsèquement préférables. Pour remédier à cela, nous proposons ANSE (Active Noise Selection for Generation), un cadre conscient du modèle qui sélectionne des graines de bruit de haute qualité en quantifiant l'incertitude basée sur l'attention. Au cœur de cette approche se trouve BANSA (Bayesian Active Noise Selection via Attention), une fonction d'acquisition qui mesure les désaccords d'entropie à travers plusieurs échantillons d'attention stochastiques pour estimer la confiance et la cohérence du modèle. Pour un déploiement efficace lors de l'inférence, nous introduisons une approximation masquée de Bernoulli de BANSA qui permet l'estimation des scores en utilisant une seule étape de diffusion et un sous-ensemble de couches d'attention. Les expériences sur CogVideoX-2B et 5B démontrent qu'ANSE améliore la qualité vidéo et la cohérence temporelle avec seulement une augmentation de 8% et 13% du temps d'inférence, respectivement, offrant ainsi une approche rigoureuse et généralisable à la sélection de bruit dans la diffusion vidéo. Consultez notre page de projet : https://anse-project.github.io/anse-project/
English
The choice of initial noise significantly affects the quality and prompt
alignment of video diffusion models, where different noise seeds for the same
prompt can lead to drastically different generations. While recent methods rely
on externally designed priors such as frequency filters or inter-frame
smoothing, they often overlook internal model signals that indicate which noise
seeds are inherently preferable. To address this, we propose ANSE (Active Noise
Selection for Generation), a model-aware framework that selects high-quality
noise seeds by quantifying attention-based uncertainty. At its core is BANSA
(Bayesian Active Noise Selection via Attention), an acquisition function that
measures entropy disagreement across multiple stochastic attention samples to
estimate model confidence and consistency. For efficient inference-time
deployment, we introduce a Bernoulli-masked approximation of BANSA that enables
score estimation using a single diffusion step and a subset of attention
layers. Experiments on CogVideoX-2B and 5B demonstrate that ANSE improves video
quality and temporal coherence with only an 8% and 13% increase in inference
time, respectively, providing a principled and generalizable approach to noise
selection in video diffusion. See our project page:
https://anse-project.github.io/anse-project/Summary
AI-Generated Summary