Foley-Steuerung: Ausrichtung eines eingefrorenen latenten Text-zu-Audio-Modells an Video
Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video
October 24, 2025
papers.authors: Ciara Rowles, Varun Jampani, Simon Donné, Shimon Vainer, Julian Parker, Zach Evans
cs.AI
papers.abstract
Foley Control ist ein leichtgewichtiger Ansatz für videogesteuertes Foley, der vortrainierte Einzelmodalitäts-Modelle eingefroren lässt und nur eine kleine Cross-Attention-Brücke zwischen ihnen lernt. Wir verbinden V-JEPA2-Video-Embeddings mit einem eingefrorenen Stable Audio Open DiT Text-to-Audio (T2A)-Modell, indem wir eine kompakte Video-Cross-Attention nach der bestehenden Text-Cross-Attention des Modells einfügen. Dadurch setzen Prompts die globalen Semantiken, während das Video die zeitliche Abfolge und lokale Dynamik verfeinert. Die eingefrorenen Backbones behalten starke Randverteilungen (Video; Audio bei gegebenem Text) und die Brücke lernt die für die Synchronisation benötigte Audio-Video-Abhängigkeit – ohne das Audio-Prior neu zu trainieren. Um den Speicherbedarf zu reduzieren und das Training zu stabilisieren, fassen wir Video-Tokens vor der Konditionierung zusammen. Auf kuratierten Video-Audio-Benchmarks erreicht Foley Control eine wettbewerbsfähige zeitliche und semantische Übereinstimmung mit deutlich weniger trainierbaren Parametern als aktuelle multimodale Systeme, wobei gleichzeitig die promptgesteuerte Steuerbarkeit und eine produktionsfreundliche Modularität erhalten bleiben (Austausch/Upgrade von Encodern oder des T2A-Backbones ohne End-to-End-Neutraining). Obwohl wir uns auf Video-zu-Foley konzentrieren, könnte dasselbe Brücken-Design prinzipiell auf andere Audio-Modalitäten (z.B. Sprache) erweitert werden.
English
Foley Control is a lightweight approach to video-guided Foley that keeps
pretrained single-modality models frozen and learns only a small
cross-attention bridge between them. We connect V-JEPA2 video embeddings to a
frozen Stable Audio Open DiT text-to-audio (T2A) model by inserting compact
video cross-attention after the model's existing text cross-attention, so
prompts set global semantics while video refines timing and local dynamics. The
frozen backbones retain strong marginals (video; audio given text) and the
bridge learns the audio-video dependency needed for synchronization -- without
retraining the audio prior. To cut memory and stabilize training, we pool video
tokens before conditioning. On curated video-audio benchmarks, Foley Control
delivers competitive temporal and semantic alignment with far fewer trainable
parameters than recent multi-modal systems, while preserving prompt-driven
controllability and production-friendly modularity (swap/upgrade encoders or
the T2A backbone without end-to-end retraining). Although we focus on
Video-to-Foley, the same bridge design can potentially extend to other audio
modalities (e.g., speech).