ChatPaper.aiChatPaper

Контроль синхронизации: согласование замороженной латентной модели преобразования текста в аудио с видео

Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video

October 24, 2025
Авторы: Ciara Rowles, Varun Jampani, Simon Donné, Shimon Vainer, Julian Parker, Zach Evans
cs.AI

Аннотация

Foley Control — это облегчённый подход к созданию фоновых звуков на основе видео, при котором предобученные одномодальные модели остаются замороженными, а обучается лишь небольшой кросс-аттенционный мост между ними. Мы соединяем видеоэмбеддинги V-JEPA2 с замороженной тексто-аудио моделью (T2A) Stable Audio Open DiT, добавляя компактный видео-кросс-аттеншн после существующего текстового кросс-аттеншна модели, так что текстовые промты задают глобальную семантику, а видео уточняет временны́е характеристики и локальную динамику. Замороженные базовые модели сохраняют сильные маргинальные распределения (видео; аудио при заданном тексте), а мост обучается зависимости «аудио–видео», необходимой для синхронизации, — без переобучения аудио-априори. Для экономии памяти и стабилизации обучения мы агрегируем видео-токены перед кондиционированием. На курированных видео-аудио бенчмарках Foley Control демонстрирует конкурентоспособное временно́е и семантическое соответствие при значительно меньшем количестве обучаемых параметров по сравнению с современными мультимодальными системами, сохраняя при этом управляемость через промты и производственно-ориентированную модульность (возможность замены/обновления энкодеров или T2A-основы без сквозного переобучения). Хотя мы фокусируемся на задаче Video-to-Foley, та же архитектура моста потенциально применима к другим аудио-модальностям (например, речи).
English
Foley Control is a lightweight approach to video-guided Foley that keeps pretrained single-modality models frozen and learns only a small cross-attention bridge between them. We connect V-JEPA2 video embeddings to a frozen Stable Audio Open DiT text-to-audio (T2A) model by inserting compact video cross-attention after the model's existing text cross-attention, so prompts set global semantics while video refines timing and local dynamics. The frozen backbones retain strong marginals (video; audio given text) and the bridge learns the audio-video dependency needed for synchronization -- without retraining the audio prior. To cut memory and stabilize training, we pool video tokens before conditioning. On curated video-audio benchmarks, Foley Control delivers competitive temporal and semantic alignment with far fewer trainable parameters than recent multi-modal systems, while preserving prompt-driven controllability and production-friendly modularity (swap/upgrade encoders or the T2A backbone without end-to-end retraining). Although we focus on Video-to-Foley, the same bridge design can potentially extend to other audio modalities (e.g., speech).
PDF31December 17, 2025