Foley Control: Alinhando um Modelo de Texto para Áudio de Latência Congelada a Vídeo
Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video
October 24, 2025
Autores: Ciara Rowles, Varun Jampani, Simon Donné, Shimon Vainer, Julian Parker, Zach Evans
cs.AI
Resumo
O Foley Control é uma abordagem leve para Foley guiado por vídeo que mantém modelos pré-treinados de modalidade única congelados e aprende apenas uma pequena ponte de atenção cruzada entre eles. Conectamos embeddings de vídeo do V-JEPA2 a um modelo congelado Stable Audio Open DiT de texto-para-áudio (T2A) inserindo uma atenção cruzada compacta para vídeo após a atenção cruzada de texto existente do modelo, permitindo que prompts definam a semântica global enquanto o vídeo refina o timing e a dinâmica local. Os backbones congelados mantêm marginais fortes (vídeo; áudio dado texto) e a ponte aprende a dependência áudio-vídeo necessária para sincronização — sem retreinar o prior de áudio. Para reduzir memória e estabilizar o treinamento, agrupamos tokens de vídeo antes do condicionamento. Em benchmarks curados de vídeo-áudio, o Foley Control oferece alinhamento temporal e semântico competitivo com muito menos parâmetros treináveis do que sistemas multimodais recentes, preservando a controlabilidade orientada por prompts e a modularidade adequada para produção (trocar/atualizar codificadores ou o backbone T2A sem retreinamento end-to-end). Embora nos concentremos em Vídeo-para-Foley, o mesmo design de ponte pode potencialmente estender-se a outras modalidades de áudio (por exemplo, fala).
English
Foley Control is a lightweight approach to video-guided Foley that keeps
pretrained single-modality models frozen and learns only a small
cross-attention bridge between them. We connect V-JEPA2 video embeddings to a
frozen Stable Audio Open DiT text-to-audio (T2A) model by inserting compact
video cross-attention after the model's existing text cross-attention, so
prompts set global semantics while video refines timing and local dynamics. The
frozen backbones retain strong marginals (video; audio given text) and the
bridge learns the audio-video dependency needed for synchronization -- without
retraining the audio prior. To cut memory and stabilize training, we pool video
tokens before conditioning. On curated video-audio benchmarks, Foley Control
delivers competitive temporal and semantic alignment with far fewer trainable
parameters than recent multi-modal systems, while preserving prompt-driven
controllability and production-friendly modularity (swap/upgrade encoders or
the T2A backbone without end-to-end retraining). Although we focus on
Video-to-Foley, the same bridge design can potentially extend to other audio
modalities (e.g., speech).