Contrôle Foley : Alignement d'un modèle latent gelé de texte-à-audio à une vidéo
Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video
October 24, 2025
papers.authors: Ciara Rowles, Varun Jampani, Simon Donné, Shimon Vainer, Julian Parker, Zach Evans
cs.AI
papers.abstract
Le Foley Control est une approche légère pour le Foley guidé par vidéo qui maintient les modèles pré-entraînés unimodaux figés et n'apprend qu'un petit module de croisement par attention entre eux. Nous connectons les embeddings vidéo de V-JEPA2 à un modèle texte-audio (T2A) Stable Audio Open DiT figé en insérant un module compact d'attention croisée vidéo après l'attention croisée texte existante du modèle, permettant ainsi aux prompts de définir la sémantique globale tandis que la vidéo affine la synchronisation et la dynamique locale. Les modèles de base figés conservent des distributions marginales solides (vidéo ; audio étant donné le texte) et le module apprend la dépendance audio-vidéo nécessaire à la synchronisation, sans réentraîner l'a priori audio. Pour réduire la mémoire et stabiliser l'entraînement, nous effectuons un regroupement des tokens vidéo avant le conditionnement. Sur des benchmarks vidéo-audio sélectionnés, Foley Control offre un alignement temporel et sémantique compétitif avec bien moins de paramètres entraînables que les systèmes multimodaux récents, tout en préservant la contrôlabilité par prompt et une modularité adaptée à la production (permutation/mise à niveau des encodeurs ou du modèle T2A sans réentraînement de bout en bout). Bien que nous nous concentrions sur la vidéo-vers-Foley, la même conception de module de connexion peut potentiellement s'étendre à d'autres modalités audio (par exemple, la parole).
English
Foley Control is a lightweight approach to video-guided Foley that keeps
pretrained single-modality models frozen and learns only a small
cross-attention bridge between them. We connect V-JEPA2 video embeddings to a
frozen Stable Audio Open DiT text-to-audio (T2A) model by inserting compact
video cross-attention after the model's existing text cross-attention, so
prompts set global semantics while video refines timing and local dynamics. The
frozen backbones retain strong marginals (video; audio given text) and the
bridge learns the audio-video dependency needed for synchronization -- without
retraining the audio prior. To cut memory and stabilize training, we pool video
tokens before conditioning. On curated video-audio benchmarks, Foley Control
delivers competitive temporal and semantic alignment with far fewer trainable
parameters than recent multi-modal systems, while preserving prompt-driven
controllability and production-friendly modularity (swap/upgrade encoders or
the T2A backbone without end-to-end retraining). Although we focus on
Video-to-Foley, the same bridge design can potentially extend to other audio
modalities (e.g., speech).