生成のためのネイティブな視聴覚アライメント

要旨

共同音声動画生成は、時間的に同期され意味的に一貫した視覚・聴覚コンテンツの合成を目的としている。しかし、既存のオープンソース手法は主に、事後アライメントを用いたデュアルタワー設計か、テキストコンテキスト、音声、動画を単一の共有空間で統合する完全統合型三モーダル設計のいずれかに依存している。前者は細粒度の音声-動画の共同進化を弱め、後者はセマンティック条件付けと低レベル同期を結合してしまう。これらの限界に対処するため、我々はNAVA（Native Audio-Visual Alignment）を提案する。NAVAは、コンテキストにより条件付けられたネイティブな音響視覚アライメントに基づく。すなわち、専用の相互作用空間で音声と動画の対応関係を最初に確立し、その後、外部コンテキストを用いて共同ノイズ除去プロセスを条件付ける。具体的には、NAVAはAlign-then-Fuse MMDiTアーキテクチャにより実装され、モダリティ認識型の音声-動画アライメントからモダリティ共有型の共同ノイズ除去へと遷移する。さらに、Timbre-in-Context Conditioningを導入し、参照音色キューと対応する音声スパンを関連付けることで、制御可能な音声音色を実現する。Verse-BenchおよびSeed-TTSにおける実験とユーザー研究により、NAVAがわずか6.3Bのパラメータで、優れた動画品質、正確な音響視覚同期、競争力のある音声品質、そしてより強力な参照音色制御性を達成することが実証された。

English

Joint audio-video generation aims to synthesize temporally synchronized and semantically coherent visual-acoustic content. However, existing open-source methods mainly rely on either dual-tower designs with posterior alignment or fully unified tri-modal designs that mix textual context, audio and video in one shared space. The former weakens fine-grained audio-video co-evolution, while the latter couples semantic conditioning with low-level synchronization. To address these limitations, we propose NAVA, a Native Audio-Visual Alignment framework for joint audio-video generation. NAVA is built upon context-conditioned native audio-visual alignment: it first establishes audio-video correspondence in a dedicated interaction space, and then uses external context to condition the joint denoising process. Specifically, NAVA is instantiated with an Align-then-Fuse MMDiT architecture, which transitions from modality-aware audio-video alignment to modality-shared joint denoising. Furthermore, we introduce Timbre-in-Context Conditioning to associate reference timbre cues with corresponding speech spans to achieve controllable speech timbre. Experiments on Verse-Bench and Seed-TTS, together with a user study, demonstrate that NAVA achieves superior video quality, precise audio-visual synchronization, competitive audio quality, and stronger reference-timbre controllability using only 6.3B parameters.