ChatPaper.aiChatPaper

Controllo Foley: Allineamento di un Modello Congelato di Testo-Audio a Video

Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video

October 24, 2025
Autori: Ciara Rowles, Varun Jampani, Simon Donné, Shimon Vainer, Julian Parker, Zach Evans
cs.AI

Abstract

Foley Control è un approccio leggero per la Foley guidata da video che mantiene congelati i modelli preaddestrati a singola modalità e apprende solo un piccolo ponte di cross-attention tra di essi. Colleghiamo gli embedding video di V-JEPA2 a un modello congelato Stable Audio Open DiT per la generazione audio da testo (T2A) inserendo una compatta cross-attention video dopo l'esistente cross-attention per il testo del modello, in modo che i prompt impostino la semantica globale mentre il video affina la temporizzazione e le dinamiche locali. I backbone congelati conservano forti distribuzioni marginali (video; audio dato il testo) e il ponte apprende la dipendenza audio-video necessaria per la sincronizzazione, senza riaddestrare la prior audio. Per ridurre la memoria e stabilizzare l'addestramento, effettuiamo il pooling dei token video prima del conditioning. Su benchmark curati di video-audio, Foley Control fornisce un allineamento temporale e semantico competitivo con un numero di parametri addestrabili di gran lunga inferiore rispetto ai recenti sistemi multi-modali, preservando al contempo la controllabilità basata su prompt e una modularità adatta alla produzione (sostituire/aggiornare encoder o il backbone T2A senza riaddestramento end-to-end). Sebbene ci concentriamo sulla Video-to-Foley, lo stesso design del ponte può potenzialmente estendersi ad altre modalità audio (ad esempio, il parlato).
English
Foley Control is a lightweight approach to video-guided Foley that keeps pretrained single-modality models frozen and learns only a small cross-attention bridge between them. We connect V-JEPA2 video embeddings to a frozen Stable Audio Open DiT text-to-audio (T2A) model by inserting compact video cross-attention after the model's existing text cross-attention, so prompts set global semantics while video refines timing and local dynamics. The frozen backbones retain strong marginals (video; audio given text) and the bridge learns the audio-video dependency needed for synchronization -- without retraining the audio prior. To cut memory and stabilize training, we pool video tokens before conditioning. On curated video-audio benchmarks, Foley Control delivers competitive temporal and semantic alignment with far fewer trainable parameters than recent multi-modal systems, while preserving prompt-driven controllability and production-friendly modularity (swap/upgrade encoders or the T2A backbone without end-to-end retraining). Although we focus on Video-to-Foley, the same bridge design can potentially extend to other audio modalities (e.g., speech).
PDF31December 17, 2025