Alignement audiovisuel natif pour la génération

Résumé

La génération conjointe audio-vidéo vise à synthétiser un contenu visuo-acoustique temporellement synchronisé et sémantiquement cohérent. Cependant, les méthodes open-source existantes reposent principalement soit sur des architectures à double tour avec alignement a posteriori, soit sur des conceptions tri-modales entièrement unifiées qui mêlent contexte textuel, audio et vidéo dans un espace partagé. La première approche affaiblit la co-évolution fine audio-vidéo, tandis que la seconde couple le conditionnement sémantique avec une synchronisation de bas niveau. Pour remédier à ces limites, nous proposons NAVA, un cadre d'alignement natif audio-visuel pour la génération conjointe audio-vidéo. NAVA repose sur un alignement natif audio-visuel conditionné par le contexte : il établit d'abord une correspondance audio-vidéo dans un espace d'interaction dédié, puis utilise un contexte externe pour conditionner le processus de débruitage conjoint. Concrètement, NAVA est implémenté via une architecture MMDiT Align-then-Fuse, qui passe d'un alignement audio-vidéo conscient des modalités à un débruitage conjoint partagé entre modalités. De plus, nous introduisons le Conditionnement par Timbre en Contexte pour associer des indices de timbre de référence aux intervalles de parole correspondants, afin d'obtenir un timbre de parole contrôlable. Les expériences menées sur Verse-Bench et Seed-TTS, ainsi qu'une étude utilisateur, montrent que NAVA atteint une qualité vidéo supérieure, une synchronisation audio-visuelle précise, une qualité audio compétitive et une meilleure contrôlabilité du timbre de référence avec seulement 6,3 milliards de paramètres.

English

Joint audio-video generation aims to synthesize temporally synchronized and semantically coherent visual-acoustic content. However, existing open-source methods mainly rely on either dual-tower designs with posterior alignment or fully unified tri-modal designs that mix textual context, audio and video in one shared space. The former weakens fine-grained audio-video co-evolution, while the latter couples semantic conditioning with low-level synchronization. To address these limitations, we propose NAVA, a Native Audio-Visual Alignment framework for joint audio-video generation. NAVA is built upon context-conditioned native audio-visual alignment: it first establishes audio-video correspondence in a dedicated interaction space, and then uses external context to condition the joint denoising process. Specifically, NAVA is instantiated with an Align-then-Fuse MMDiT architecture, which transitions from modality-aware audio-video alignment to modality-shared joint denoising. Furthermore, we introduce Timbre-in-Context Conditioning to associate reference timbre cues with corresponding speech spans to achieve controllable speech timbre. Experiments on Verse-Bench and Seed-TTS, together with a user study, demonstrate that NAVA achieves superior video quality, precise audio-visual synchronization, competitive audio quality, and stronger reference-timbre controllability using only 6.3B parameters.