Foley-Steuerung: Ausrichtung eines eingefrorenen latenten Text-zu-Audio-Modells an Video

papers.abstract

Foley Control ist ein leichtgewichtiger Ansatz für videogesteuertes Foley, der vortrainierte Einzelmodalitäts-Modelle eingefroren lässt und nur eine kleine Cross-Attention-Brücke zwischen ihnen lernt. Wir verbinden V-JEPA2-Video-Embeddings mit einem eingefrorenen Stable Audio Open DiT Text-to-Audio (T2A)-Modell, indem wir eine kompakte Video-Cross-Attention nach der bestehenden Text-Cross-Attention des Modells einfügen. Dadurch setzen Prompts die globalen Semantiken, während das Video die zeitliche Abfolge und lokale Dynamik verfeinert. Die eingefrorenen Backbones behalten starke Randverteilungen (Video; Audio bei gegebenem Text) und die Brücke lernt die für die Synchronisation benötigte Audio-Video-Abhängigkeit – ohne das Audio-Prior neu zu trainieren. Um den Speicherbedarf zu reduzieren und das Training zu stabilisieren, fassen wir Video-Tokens vor der Konditionierung zusammen. Auf kuratierten Video-Audio-Benchmarks erreicht Foley Control eine wettbewerbsfähige zeitliche und semantische Übereinstimmung mit deutlich weniger trainierbaren Parametern als aktuelle multimodale Systeme, wobei gleichzeitig die promptgesteuerte Steuerbarkeit und eine produktionsfreundliche Modularität erhalten bleiben (Austausch/Upgrade von Encodern oder des T2A-Backbones ohne End-to-End-Neutraining). Obwohl wir uns auf Video-zu-Foley konzentrieren, könnte dasselbe Brücken-Design prinzipiell auf andere Audio-Modalitäten (z.B. Sprache) erweitert werden.

English

Foley Control is a lightweight approach to video-guided Foley that keeps pretrained single-modality models frozen and learns only a small cross-attention bridge between them. We connect V-JEPA2 video embeddings to a frozen Stable Audio Open DiT text-to-audio (T2A) model by inserting compact video cross-attention after the model's existing text cross-attention, so prompts set global semantics while video refines timing and local dynamics. The frozen backbones retain strong marginals (video; audio given text) and the bridge learns the audio-video dependency needed for synchronization -- without retraining the audio prior. To cut memory and stabilize training, we pool video tokens before conditioning. On curated video-audio benchmarks, Foley Control delivers competitive temporal and semantic alignment with far fewer trainable parameters than recent multi-modal systems, while preserving prompt-driven controllability and production-friendly modularity (swap/upgrade encoders or the T2A backbone without end-to-end retraining). Although we focus on Video-to-Foley, the same bridge design can potentially extend to other audio modalities (e.g., speech).

Foley-Steuerung: Ausrichtung eines eingefrorenen latenten Text-zu-Audio-Modells an Video

Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video

papers.abstract

Support