Domare la Generazione di Video da Testo a Suono attraverso Condizioni Modali Avanzate e Interazione
Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction
October 3, 2025
Autori: Kaisi Guan, Xihua Wang, Zhengfeng Lai, Xin Cheng, Peng Zhang, XiaoJiang Liu, Ruihua Song, Meng Cao
cs.AI
Abstract
Questo studio si concentra su un compito impegnativo ma promettente, la generazione di Video Sonorizzati da Testo (Text-to-Sounding-Video, T2SV), che mira a produrre un video con audio sincronizzato a partire da condizioni testuali, garantendo al contempo che entrambe le modalità siano allineate con il testo. Nonostante i progressi nell'addestramento congiunto audio-video, due sfide critiche rimangono irrisolte: (1) una singola didascalia condivisa, in cui il testo per il video è uguale al testo per l'audio, spesso crea interferenze modali, confondendo i modelli pre-addestrati, e (2) il meccanismo ottimale per l'interazione tra caratteristiche cross-modali rimane poco chiaro. Per affrontare queste sfide, proponiamo innanzitutto il framework di Didascalie Gerarchiche Basate sul Visivo (Hierarchical Visual-Grounded Captioning, HVGC), che genera coppie di didascalie separate, una per il video e una per l'audio, eliminando le interferenze nella fase di condizionamento. Basandoci su HVGC, introduciamo ulteriormente BridgeDiT, un innovativo trasformatore di diffusione a doppia torre, che utilizza un meccanismo di Dual CrossAttention (DCA) che funge da robusto "ponte" per consentire uno scambio bidirezionale e simmetrico di informazioni, raggiungendo sia la sincronizzazione semantica che temporale. Esperimenti estesi su tre dataset di riferimento, supportati da valutazioni umane, dimostrano che il nostro metodo raggiunge risultati all'avanguardia nella maggior parte delle metriche. Studi di ablazione completi convalidano ulteriormente l'efficacia dei nostri contributi, offrendo intuizioni chiave per il futuro compito T2SV. Tutti i codici e i checkpoint saranno rilasciati pubblicamente.
English
This study focuses on a challenging yet promising task,
Text-to-Sounding-Video (T2SV) generation, which aims to generate a video with
synchronized audio from text conditions, meanwhile ensuring both modalities are
aligned with text. Despite progress in joint audio-video training, two critical
challenges still remain unaddressed: (1) a single, shared text caption where
the text for video is equal to the text for audio often creates modal
interference, confusing the pretrained backbones, and (2) the optimal mechanism
for cross-modal feature interaction remains unclear. To address these
challenges, we first propose the Hierarchical Visual-Grounded Captioning (HVGC)
framework that generates pairs of disentangled captions, a video caption, and
an audio caption, eliminating interference at the conditioning stage. Based on
HVGC, we further introduce BridgeDiT, a novel dual-tower diffusion transformer,
which employs a Dual CrossAttention (DCA) mechanism that acts as a robust
``bridge" to enable a symmetric, bidirectional exchange of information,
achieving both semantic and temporal synchronization. Extensive experiments on
three benchmark datasets, supported by human evaluations, demonstrate that our
method achieves state-of-the-art results on most metrics. Comprehensive
ablation studies further validate the effectiveness of our contributions,
offering key insights for the future T2SV task. All the codes and checkpoints
will be publicly released.