ChatPaper.aiChatPaper

Domando a Geração de Vídeo de Texto para Som através de Condicionamento de Modalidade Avançada e Interação

Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction

October 3, 2025
Autores: Kaisi Guan, Xihua Wang, Zhengfeng Lai, Xin Cheng, Peng Zhang, XiaoJiang Liu, Ruihua Song, Meng Cao
cs.AI

Resumo

Este estudo concentra-se em uma tarefa desafiadora, porém promissora, a geração de Vídeo Sonoro a partir de Texto (Text-to-Sounding-Video, T2SV), que visa gerar um vídeo com áudio sincronizado a partir de condições textuais, garantindo que ambas as modalidades estejam alinhadas com o texto. Apesar dos avanços no treinamento conjunto de áudio e vídeo, dois desafios críticos permanecem sem solução: (1) uma única legenda compartilhada, onde o texto para o vídeo é igual ao texto para o áudio, frequentemente cria interferência modal, confundindo os backbones pré-treinados, e (2) o mecanismo ideal para interação de recursos entre modalidades ainda não é claro. Para abordar esses desafios, propomos primeiro o framework de Legendagem Hierárquica Baseada em Visual (Hierarchical Visual-Grounded Captioning, HVGC), que gera pares de legendas desacopladas, uma legenda para o vídeo e outra para o áudio, eliminando a interferência na etapa de condicionamento. Com base no HVGC, introduzimos ainda o BridgeDiT, um novo transformer de difusão de torre dupla, que emprega um mecanismo de Dual CrossAttention (DCA) que atua como uma "ponte" robusta para permitir uma troca simétrica e bidirecional de informações, alcançando sincronização tanto semântica quanto temporal. Experimentos extensivos em três conjuntos de dados de referência, apoiados por avaliações humanas, demonstram que nosso método alcança resultados de ponta na maioria das métricas. Estudos abrangentes de ablação validam ainda mais a eficácia de nossas contribuições, oferecendo insights importantes para a futura tarefa de T2SV. Todos os códigos e checkpoints serão liberados publicamente.
English
This study focuses on a challenging yet promising task, Text-to-Sounding-Video (T2SV) generation, which aims to generate a video with synchronized audio from text conditions, meanwhile ensuring both modalities are aligned with text. Despite progress in joint audio-video training, two critical challenges still remain unaddressed: (1) a single, shared text caption where the text for video is equal to the text for audio often creates modal interference, confusing the pretrained backbones, and (2) the optimal mechanism for cross-modal feature interaction remains unclear. To address these challenges, we first propose the Hierarchical Visual-Grounded Captioning (HVGC) framework that generates pairs of disentangled captions, a video caption, and an audio caption, eliminating interference at the conditioning stage. Based on HVGC, we further introduce BridgeDiT, a novel dual-tower diffusion transformer, which employs a Dual CrossAttention (DCA) mechanism that acts as a robust ``bridge" to enable a symmetric, bidirectional exchange of information, achieving both semantic and temporal synchronization. Extensive experiments on three benchmark datasets, supported by human evaluations, demonstrate that our method achieves state-of-the-art results on most metrics. Comprehensive ablation studies further validate the effectiveness of our contributions, offering key insights for the future T2SV task. All the codes and checkpoints will be publicly released.
PDF112October 10, 2025