ChatPaper.aiChatPaper

Contrôle Foley : Alignement d'un modèle latent gelé de texte-à-audio à une vidéo

Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video

October 24, 2025
papers.authors: Ciara Rowles, Varun Jampani, Simon Donné, Shimon Vainer, Julian Parker, Zach Evans
cs.AI

papers.abstract

Le Foley Control est une approche légère pour le Foley guidé par vidéo qui maintient les modèles pré-entraînés unimodaux figés et n'apprend qu'un petit module de croisement par attention entre eux. Nous connectons les embeddings vidéo de V-JEPA2 à un modèle texte-audio (T2A) Stable Audio Open DiT figé en insérant un module compact d'attention croisée vidéo après l'attention croisée texte existante du modèle, permettant ainsi aux prompts de définir la sémantique globale tandis que la vidéo affine la synchronisation et la dynamique locale. Les modèles de base figés conservent des distributions marginales solides (vidéo ; audio étant donné le texte) et le module apprend la dépendance audio-vidéo nécessaire à la synchronisation, sans réentraîner l'a priori audio. Pour réduire la mémoire et stabiliser l'entraînement, nous effectuons un regroupement des tokens vidéo avant le conditionnement. Sur des benchmarks vidéo-audio sélectionnés, Foley Control offre un alignement temporel et sémantique compétitif avec bien moins de paramètres entraînables que les systèmes multimodaux récents, tout en préservant la contrôlabilité par prompt et une modularité adaptée à la production (permutation/mise à niveau des encodeurs ou du modèle T2A sans réentraînement de bout en bout). Bien que nous nous concentrions sur la vidéo-vers-Foley, la même conception de module de connexion peut potentiellement s'étendre à d'autres modalités audio (par exemple, la parole).
English
Foley Control is a lightweight approach to video-guided Foley that keeps pretrained single-modality models frozen and learns only a small cross-attention bridge between them. We connect V-JEPA2 video embeddings to a frozen Stable Audio Open DiT text-to-audio (T2A) model by inserting compact video cross-attention after the model's existing text cross-attention, so prompts set global semantics while video refines timing and local dynamics. The frozen backbones retain strong marginals (video; audio given text) and the bridge learns the audio-video dependency needed for synchronization -- without retraining the audio prior. To cut memory and stabilize training, we pool video tokens before conditioning. On curated video-audio benchmarks, Foley Control delivers competitive temporal and semantic alignment with far fewer trainable parameters than recent multi-modal systems, while preserving prompt-driven controllability and production-friendly modularity (swap/upgrade encoders or the T2A backbone without end-to-end retraining). Although we focus on Video-to-Foley, the same bridge design can potentially extend to other audio modalities (e.g., speech).
PDF31December 17, 2025