ChatPaper.aiChatPaper

Domesticación de la Generación de Video a Partir de Texto mediante Condiciones de Modalidad Avanzada e Interacción

Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction

October 3, 2025
Autores: Kaisi Guan, Xihua Wang, Zhengfeng Lai, Xin Cheng, Peng Zhang, XiaoJiang Liu, Ruihua Song, Meng Cao
cs.AI

Resumen

Este estudio se centra en una tarea desafiante pero prometedora, la generación de Video con Sonido a partir de Texto (Text-to-Sounding-Video, T2SV), que tiene como objetivo generar un video con audio sincronizado a partir de condiciones de texto, asegurando al mismo tiempo que ambas modalidades estén alineadas con el texto. A pesar de los avances en el entrenamiento conjunto de audio y video, dos desafíos críticos aún no han sido resueltos: (1) un único texto compartido, donde el texto para el video es igual al texto para el audio, a menudo crea interferencia modal, confundiendo los modelos preentrenados, y (2) el mecanismo óptimo para la interacción de características entre modalidades sigue sin estar claro. Para abordar estos desafíos, primero proponemos el marco de Subtitulado Jerárquico Basado en Visuales (Hierarchical Visual-Grounded Captioning, HVGC), que genera pares de subtítulos desacoplados, un subtítulo para el video y otro para el audio, eliminando la interferencia en la etapa de condicionamiento. Basándonos en HVGC, además introducimos BridgeDiT, un novedoso transformador de difusión de doble torre, que emplea un mecanismo de Atención Cruzada Dual (Dual CrossAttention, DCA) que actúa como un "puente" robusto para permitir un intercambio bidireccional y simétrico de información, logrando tanto la sincronización semántica como temporal. Experimentos exhaustivos en tres conjuntos de datos de referencia, respaldados por evaluaciones humanas, demuestran que nuestro método alcanza resultados de vanguardia en la mayoría de las métricas. Estudios de ablación exhaustivos validan además la efectividad de nuestras contribuciones, ofreciendo ideas clave para futuras tareas de T2SV. Todos los códigos y puntos de control serán liberados públicamente.
English
This study focuses on a challenging yet promising task, Text-to-Sounding-Video (T2SV) generation, which aims to generate a video with synchronized audio from text conditions, meanwhile ensuring both modalities are aligned with text. Despite progress in joint audio-video training, two critical challenges still remain unaddressed: (1) a single, shared text caption where the text for video is equal to the text for audio often creates modal interference, confusing the pretrained backbones, and (2) the optimal mechanism for cross-modal feature interaction remains unclear. To address these challenges, we first propose the Hierarchical Visual-Grounded Captioning (HVGC) framework that generates pairs of disentangled captions, a video caption, and an audio caption, eliminating interference at the conditioning stage. Based on HVGC, we further introduce BridgeDiT, a novel dual-tower diffusion transformer, which employs a Dual CrossAttention (DCA) mechanism that acts as a robust ``bridge" to enable a symmetric, bidirectional exchange of information, achieving both semantic and temporal synchronization. Extensive experiments on three benchmark datasets, supported by human evaluations, demonstrate that our method achieves state-of-the-art results on most metrics. Comprehensive ablation studies further validate the effectiveness of our contributions, offering key insights for the future T2SV task. All the codes and checkpoints will be publicly released.
PDF92October 10, 2025