Control Foley: Alineación de un Modelo Congelado de Texto a Audio Latente con Video
Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video
October 24, 2025
Autores: Ciara Rowles, Varun Jampani, Simon Donné, Shimon Vainer, Julian Parker, Zach Evans
cs.AI
Resumen
Foley Control es un enfoque ligero para la Foley guiada por video que mantiene congelados los modelos preentrenados de modalidad única y aprende únicamente un pequeño puente de atención cruzada entre ellos. Conectamos los embeddings de video de V-JEPA2 a un modelo congelado Stable Audio Open DiT de texto a audio (T2A) insertando una atención cruzada de video compacta después de la atención cruzada de texto existente del modelo, de modo que los 'prompts' establecen la semántica global mientras que el video refina la sincronización y la dinámica local. Los 'backbones' congelados retienen distribuciones marginales sólidas (video; audio dado texto) y el puente aprende la dependencia audio-video necesaria para la sincronización, sin reentrenar el 'prior' de audio. Para reducir la memoria y estabilizar el entrenamiento, agrupamos los 'tokens' de video antes del condicionamiento. En benchmarks curados de video-audio, Foley Control ofrece una alineación temporal y semántica competitiva con muchos menos parámetros entrenables que los sistemas multimodales recientes, preservando al mismo tiempo la capacidad de control mediante 'prompts' y una modularidad apta para producción (intercambiar/actualizar codificadores o el 'backbone' T2A sin reentrenamiento de extremo a extremo). Aunque nos centramos en Video-a-Foley, el mismo diseño de puente puede extenderse potencialmente a otras modalidades de audio (por ejemplo, habla).
English
Foley Control is a lightweight approach to video-guided Foley that keeps
pretrained single-modality models frozen and learns only a small
cross-attention bridge between them. We connect V-JEPA2 video embeddings to a
frozen Stable Audio Open DiT text-to-audio (T2A) model by inserting compact
video cross-attention after the model's existing text cross-attention, so
prompts set global semantics while video refines timing and local dynamics. The
frozen backbones retain strong marginals (video; audio given text) and the
bridge learns the audio-video dependency needed for synchronization -- without
retraining the audio prior. To cut memory and stabilize training, we pool video
tokens before conditioning. On curated video-audio benchmarks, Foley Control
delivers competitive temporal and semantic alignment with far fewer trainable
parameters than recent multi-modal systems, while preserving prompt-driven
controllability and production-friendly modularity (swap/upgrade encoders or
the T2A backbone without end-to-end retraining). Although we focus on
Video-to-Foley, the same bridge design can potentially extend to other audio
modalities (e.g., speech).