ChatPaper.aiChatPaper

O Modelo Já Conhece o Melhor Ruído: Seleção Bayesiana Ativa de Ruído via Atenção em Modelos de Difusão de Vídeo

Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model

May 23, 2025
Autores: Kwanyoung Kim, Sanghyun Kim
cs.AI

Resumo

A escolha do ruído inicial afeta significativamente a qualidade e o alinhamento com o prompt em modelos de difusão de vídeo, onde diferentes sementes de ruído para o mesmo prompt podem levar a gerações drasticamente diferentes. Embora métodos recentes dependam de prioridades externamente projetadas, como filtros de frequência ou suavização inter-quadros, eles frequentemente ignoram sinais internos do modelo que indicam quais sementes de ruído são intrinsecamente preferíveis. Para abordar isso, propomos o ANSE (Seleção Ativa de Ruído para Geração), uma estrutura consciente do modelo que seleciona sementes de ruído de alta qualidade ao quantificar a incerteza baseada em atenção. Em seu núcleo está o BANSA (Seleção Ativa de Ruído Bayesiana via Atenção), uma função de aquisição que mede a discordância de entropia em múltiplas amostras estocásticas de atenção para estimar a confiança e a consistência do modelo. Para uma implantação eficiente no tempo de inferência, introduzimos uma aproximação mascarada por Bernoulli do BANSA que permite a estimativa de pontuação usando um único passo de difusão e um subconjunto de camadas de atenção. Experimentos no CogVideoX-2B e 5B demonstram que o ANSE melhora a qualidade do vídeo e a coerência temporal com apenas um aumento de 8% e 13% no tempo de inferência, respectivamente, fornecendo uma abordagem fundamentada e generalizável para a seleção de ruído em difusão de vídeo. Veja nossa página do projeto: https://anse-project.github.io/anse-project/
English
The choice of initial noise significantly affects the quality and prompt alignment of video diffusion models, where different noise seeds for the same prompt can lead to drastically different generations. While recent methods rely on externally designed priors such as frequency filters or inter-frame smoothing, they often overlook internal model signals that indicate which noise seeds are inherently preferable. To address this, we propose ANSE (Active Noise Selection for Generation), a model-aware framework that selects high-quality noise seeds by quantifying attention-based uncertainty. At its core is BANSA (Bayesian Active Noise Selection via Attention), an acquisition function that measures entropy disagreement across multiple stochastic attention samples to estimate model confidence and consistency. For efficient inference-time deployment, we introduce a Bernoulli-masked approximation of BANSA that enables score estimation using a single diffusion step and a subset of attention layers. Experiments on CogVideoX-2B and 5B demonstrate that ANSE improves video quality and temporal coherence with only an 8% and 13% increase in inference time, respectively, providing a principled and generalizable approach to noise selection in video diffusion. See our project page: https://anse-project.github.io/anse-project/
PDF313May 26, 2025