Maîtrise de la génération de vidéos sonores à partir de texte grâce à une condition de modalité avancée et à l'interaction
Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction
October 3, 2025
papers.authors: Kaisi Guan, Xihua Wang, Zhengfeng Lai, Xin Cheng, Peng Zhang, XiaoJiang Liu, Ruihua Song, Meng Cao
cs.AI
papers.abstract
Cette étude se concentre sur une tâche complexe mais prometteuse, la génération de vidéos sonores à partir de texte (Text-to-Sounding-Video, T2SV), qui vise à produire une vidéo avec un audio synchronisé à partir de conditions textuelles, tout en garantissant que les deux modalités sont alignées avec le texte. Malgré les progrès réalisés dans l'entraînement conjoint audio-vidéo, deux défis critiques restent non résolus : (1) une seule légende textuelle partagée, où le texte pour la vidéo est identique à celui pour l'audio, crée souvent une interférence modale, perturbant les modèles pré-entraînés, et (2) le mécanisme optimal pour l'interaction des caractéristiques intermodales reste incertain. Pour relever ces défis, nous proposons d'abord le cadre de légendage visuel hiérarchique (Hierarchical Visual-Grounded Captioning, HVGC) qui génère des paires de légendes dissociées, une légende pour la vidéo et une pour l'audio, éliminant ainsi les interférences au stade du conditionnement. Sur la base de HVGC, nous introduisons ensuite BridgeDiT, un nouveau transformeur de diffusion à double tour, qui utilise un mécanisme de Double Attention Croisée (Dual CrossAttention, DCA) agissant comme un « pont » robuste pour permettre un échange bidirectionnel et symétrique d'informations, atteignant une synchronisation à la fois sémantique et temporelle. Des expériences approfondies sur trois ensembles de données de référence, soutenues par des évaluations humaines, démontrent que notre méthode obtient des résultats de pointe sur la plupart des métriques. Des études d'ablation complètes valident en outre l'efficacité de nos contributions, offrant des insights clés pour la future tâche T2SV. Tous les codes et points de contrôle seront rendus publics.
English
This study focuses on a challenging yet promising task,
Text-to-Sounding-Video (T2SV) generation, which aims to generate a video with
synchronized audio from text conditions, meanwhile ensuring both modalities are
aligned with text. Despite progress in joint audio-video training, two critical
challenges still remain unaddressed: (1) a single, shared text caption where
the text for video is equal to the text for audio often creates modal
interference, confusing the pretrained backbones, and (2) the optimal mechanism
for cross-modal feature interaction remains unclear. To address these
challenges, we first propose the Hierarchical Visual-Grounded Captioning (HVGC)
framework that generates pairs of disentangled captions, a video caption, and
an audio caption, eliminating interference at the conditioning stage. Based on
HVGC, we further introduce BridgeDiT, a novel dual-tower diffusion transformer,
which employs a Dual CrossAttention (DCA) mechanism that acts as a robust
``bridge" to enable a symmetric, bidirectional exchange of information,
achieving both semantic and temporal synchronization. Extensive experiments on
three benchmark datasets, supported by human evaluations, demonstrate that our
method achieves state-of-the-art results on most metrics. Comprehensive
ablation studies further validate the effectiveness of our contributions,
offering key insights for the future T2SV task. All the codes and checkpoints
will be publicly released.