Alinhamento Áudio-Visual Nativo para Geração

Resumo

A geração conjunta de áudio-vídeo visa sintetizar conteúdo visual-acústico temporalmente sincronizado e semanticamente coerente. No entanto, os métodos open-source existentes baseiam-se principalmente em arquiteturas de torre dupla com alinhamento posterior ou em designs trimodais totalmente unificados que misturam contexto textual, áudio e vídeo em um espaço compartilhado. O primeiro enfraquece a coevolução refinada de áudio-vídeo, enquanto o segundo acopla o condicionamento semântico à sincronização de baixo nível. Para superar essas limitações, propomos NAVA, um framework de Alinhamento Nativo Audiovisual para geração conjunta de áudio-vídeo. O NAVA é baseado em alinhamento nativo audiovisual condicionado ao contexto: primeiro estabelece a correspondência áudio-vídeo em um espaço de interação dedicado e, em seguida, utiliza o contexto externo para condicionar o processo conjunto de denoising. Especificamente, o NAVA é instanciado com uma arquitetura MMDiT Alinhar-depois-Fundir, que transita do alinhamento áudio-vídeo consciente da modalidade para o denoising conjunto compartilhado entre modalidades. Além disso, introduzimos o Condicionamento de Timbre no Contexto para associar pistas de timbre de referência a segmentos de fala correspondentes, viabilizando o timbre de fala controlável. Experimentos no Verse-Bench e Seed-TTS, juntamente com um estudo de usuário, demonstram que o NAVA alcança qualidade de vídeo superior, sincronização audiovisual precisa, qualidade de áudio competitiva e controlabilidade de timbre de referência mais forte usando apenas 6,3 bilhões de parâmetros.

English

Joint audio-video generation aims to synthesize temporally synchronized and semantically coherent visual-acoustic content. However, existing open-source methods mainly rely on either dual-tower designs with posterior alignment or fully unified tri-modal designs that mix textual context, audio and video in one shared space. The former weakens fine-grained audio-video co-evolution, while the latter couples semantic conditioning with low-level synchronization. To address these limitations, we propose NAVA, a Native Audio-Visual Alignment framework for joint audio-video generation. NAVA is built upon context-conditioned native audio-visual alignment: it first establishes audio-video correspondence in a dedicated interaction space, and then uses external context to condition the joint denoising process. Specifically, NAVA is instantiated with an Align-then-Fuse MMDiT architecture, which transitions from modality-aware audio-video alignment to modality-shared joint denoising. Furthermore, we introduce Timbre-in-Context Conditioning to associate reference timbre cues with corresponding speech spans to achieve controllable speech timbre. Experiments on Verse-Bench and Seed-TTS, together with a user study, demonstrate that NAVA achieves superior video quality, precise audio-visual synchronization, competitive audio quality, and stronger reference-timbre controllability using only 6.3B parameters.