Foley Control: Afstemming van een Bevroren Latent Tekst-naar-Audio Model op Video
Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video
October 24, 2025
Auteurs: Ciara Rowles, Varun Jampani, Simon Donné, Shimon Vainer, Julian Parker, Zach Evans
cs.AI
Samenvatting
Foley Control is een lichtgewicht aanpak voor video-gestuurde Foley-geluidssynthese waarbij vooraf getrainde enkelvoudige-modaliteitsmodellen bevroren blijven en alleen een kleine cross-attention-brug ertussen wordt getraind. We verbinden V-JEPA2-video-embeddings met een bevroren Stable Audio Open DiT text-to-audio (T2A)-model door compacte video-cross-attention in te voegen na de bestaande tekst-cross-attention van het model. Hierdoor bepalen prompts de globale semantiek, terwijl de video de timing en lokale dynamiek verfijnt. De bevroren backbone-modellen behouden sterke marginale verdelingen (video; audio gegeven tekst) en de brug leert de audio-video-afhankelijkheid die nodig is voor synchronisatie – zonder het audio-prior opnieuw te trainen. Om het geheugengebruik te beperken en de training te stabiliseren, poolen we video-tokens vóór conditionering. Op gecureerde video-audio benchmarks levert Foley Control competitieve temporele en semantische uitlijning met aanzienlijk minder trainbare parameters dan recente multimodale systemen, waarbij het prompt-gestuurde aanpasbaarheid en productievriendelijke modulariteit behoudt (verwissel of upgrade encoders of de T2A-backbone zonder end-to-end hertraining). Hoewel we ons richten op Video-to-Foley, kan hetzelfde brugontwerp mogelijk worden uitgebreid naar andere audio-modaliteiten (bijvoorbeeld spraak).
English
Foley Control is a lightweight approach to video-guided Foley that keeps
pretrained single-modality models frozen and learns only a small
cross-attention bridge between them. We connect V-JEPA2 video embeddings to a
frozen Stable Audio Open DiT text-to-audio (T2A) model by inserting compact
video cross-attention after the model's existing text cross-attention, so
prompts set global semantics while video refines timing and local dynamics. The
frozen backbones retain strong marginals (video; audio given text) and the
bridge learns the audio-video dependency needed for synchronization -- without
retraining the audio prior. To cut memory and stabilize training, we pool video
tokens before conditioning. On curated video-audio benchmarks, Foley Control
delivers competitive temporal and semantic alignment with far fewer trainable
parameters than recent multi-modal systems, while preserving prompt-driven
controllability and production-friendly modularity (swap/upgrade encoders or
the T2A backbone without end-to-end retraining). Although we focus on
Video-to-Foley, the same bridge design can potentially extend to other audio
modalities (e.g., speech).