Alineación Audiovisual Nativa para Generación

Resumen

La generación conjunta de audio y video tiene como objetivo sintetizar contenido visual y acústico temporalmente sincronizado y semánticamente coherente. Sin embargo, los métodos de código abierto existentes se basan principalmente en diseños de doble torre con alineación posterior o en diseños totalmente unificados de tres modalidades que mezclan contexto textual, audio y video en un espacio compartido. El primero debilita la co-evolución detallada entre audio y video, mientras que el segundo acopla el condicionamiento semántico con la sincronización de bajo nivel. Para abordar estas limitaciones, proponemos NAVA, un marco de Alineación Nativa Audio-Visual para la generación conjunta de audio y video. NAVA se basa en la alineación nativa audio-visual condicionada por contexto: primero establece la correspondencia audio-video en un espacio de interacción dedicado, y luego utiliza contexto externo para condicionar el proceso de eliminación de ruido conjunto. Específicamente, NAVA se implementa con una arquitectura MMDiT de Alineación y Fusión, que transita desde la alineación audio-video consciente de la modalidad hacia la eliminación de ruido conjunta compartida entre modalidades. Además, introducimos el Condicionamiento de Timbre en Contexto para asociar señales de timbre de referencia con los segmentos de habla correspondientes, logrando un control del timbre del habla. Experimentos en Verse-Bench y Seed-TTS, junto con un estudio de usuarios, demuestran que NAVA alcanza una calidad de video superior, una sincronización audiovisual precisa, una calidad de audio competitiva y un mayor control del timbre de referencia utilizando solo 6.3 mil millones de parámetros.

English

Joint audio-video generation aims to synthesize temporally synchronized and semantically coherent visual-acoustic content. However, existing open-source methods mainly rely on either dual-tower designs with posterior alignment or fully unified tri-modal designs that mix textual context, audio and video in one shared space. The former weakens fine-grained audio-video co-evolution, while the latter couples semantic conditioning with low-level synchronization. To address these limitations, we propose NAVA, a Native Audio-Visual Alignment framework for joint audio-video generation. NAVA is built upon context-conditioned native audio-visual alignment: it first establishes audio-video correspondence in a dedicated interaction space, and then uses external context to condition the joint denoising process. Specifically, NAVA is instantiated with an Align-then-Fuse MMDiT architecture, which transitions from modality-aware audio-video alignment to modality-shared joint denoising. Furthermore, we introduce Timbre-in-Context Conditioning to associate reference timbre cues with corresponding speech spans to achieve controllable speech timbre. Experiments on Verse-Bench and Seed-TTS, together with a user study, demonstrate that NAVA achieves superior video quality, precise audio-visual synchronization, competitive audio quality, and stronger reference-timbre controllability using only 6.3B parameters.