Le Modèle Connaît Déjà le Meilleur Bruit : Sélection Active Bayésienne du Bruit via l'Attention dans un Modèle de Diffusion Vidéo

Résumé

Le choix du bruit initial influence significativement la qualité et l'alignement des modèles de diffusion vidéo, où différentes graines de bruit pour le même prompt peuvent conduire à des générations radicalement différentes. Bien que les méthodes récentes s'appuient sur des a priori conçus de manière externe, tels que des filtres de fréquence ou un lissage inter-images, elles négligent souvent les signaux internes du modèle qui indiquent quelles graines de bruit sont intrinsèquement préférables. Pour remédier à cela, nous proposons ANSE (Active Noise Selection for Generation), un cadre conscient du modèle qui sélectionne des graines de bruit de haute qualité en quantifiant l'incertitude basée sur l'attention. Au cœur de cette approche se trouve BANSA (Bayesian Active Noise Selection via Attention), une fonction d'acquisition qui mesure les désaccords d'entropie à travers plusieurs échantillons d'attention stochastiques pour estimer la confiance et la cohérence du modèle. Pour un déploiement efficace lors de l'inférence, nous introduisons une approximation masquée de Bernoulli de BANSA qui permet l'estimation des scores en utilisant une seule étape de diffusion et un sous-ensemble de couches d'attention. Les expériences sur CogVideoX-2B et 5B démontrent qu'ANSE améliore la qualité vidéo et la cohérence temporelle avec seulement une augmentation de 8% et 13% du temps d'inférence, respectivement, offrant ainsi une approche rigoureuse et généralisable à la sélection de bruit dans la diffusion vidéo. Consultez notre page de projet : https://anse-project.github.io/anse-project/

English

The choice of initial noise significantly affects the quality and prompt alignment of video diffusion models, where different noise seeds for the same prompt can lead to drastically different generations. While recent methods rely on externally designed priors such as frequency filters or inter-frame smoothing, they often overlook internal model signals that indicate which noise seeds are inherently preferable. To address this, we propose ANSE (Active Noise Selection for Generation), a model-aware framework that selects high-quality noise seeds by quantifying attention-based uncertainty. At its core is BANSA (Bayesian Active Noise Selection via Attention), an acquisition function that measures entropy disagreement across multiple stochastic attention samples to estimate model confidence and consistency. For efficient inference-time deployment, we introduce a Bernoulli-masked approximation of BANSA that enables score estimation using a single diffusion step and a subset of attention layers. Experiments on CogVideoX-2B and 5B demonstrate that ANSE improves video quality and temporal coherence with only an 8% and 13% increase in inference time, respectively, providing a principled and generalizable approach to noise selection in video diffusion. See our project page: https://anse-project.github.io/anse-project/