Klear: 統合型マルチタスク音声-映像同時生成
Klear: Unified Multi-Task Audio-Video Joint Generation
January 7, 2026
著者: Jun Wang, Chunyu Qiang, Yuxin Guo, Yiran Wang, Xijuan Zeng, Chen Zhang, Pengfei Wan
cs.AI
要旨
音声-映像の統合生成技術は急速に進歩しているものの、依然として大きな課題が残っている。非商用アプローチでは、音声と映像の非同期、口唇と音声の不一致、単一モダリティの品質劣化といった問題が発生しており、これらは音声-映像対応関係のモデリングの弱さ、限定的な汎化性能、高品質な詳細キャプションデータの不足に起因する。これらの課題に対処するため、我々はKlearを提案し、モデルアーキテクチャ、学習戦略、データ構築の3つの軸から検討を行う。アーキテクチャ面では、統一されたDiTブロックとOmni-Full Attention機構を採用したシングルタワー設計により、音声と映像の緊密な同期と強力な拡張性を実現した。学習戦略では、ランダムモダリティマスキングによるタスク間共同最適化と、多段階カリキュラム学習からなる段階的多タスク学習を採用し、頑健な表現学習、音声-映像連携した世界知識の強化、単一モダリティ崩壊の防止を達成した。データセットに関しては、詳細キャプションを付与した初の大規模音声-映像データセットを構築し、数百万の多様で高品質、厳密に同期した音声-映像-キャプションの三組を自動的に注釈付け・選別する新しいデータ構築パイプラインを導入した。これらに基づくKlearは大規模データセットでの学習が可能であり、統合生成と単一モダリティ生成の両設定において、高精細で意味的・時間的に同期した指示追従型の生成を実現するとともに、分布外シナリオに対しても頑健に汎化する。各種タスクにおいて、従来手法を大幅に上回る性能を発揮し、Veo 3に匹敵する性能を達成しており、次世代の音声-映像統合合成に向けた統一かつ拡張可能な道筋を示している。
English
Audio-video joint generation has progressed rapidly, yet substantial challenges still remain. Non-commercial approaches still suffer audio-visual asynchrony, poor lip-speech alignment, and unimodal degradation, which can be stemmed from weak audio-visual correspondence modeling, limited generalization, and scarce high-quality dense-caption data. To address these issues, we introduce Klear and delve into three axes--model architecture, training strategy, and data curation. Architecturally, we adopt a single-tower design with unified DiT blocks and an Omni-Full Attention mechanism, achieving tight audio-visual alignment and strong scalability. Training-wise, we adopt a progressive multitask regime--random modality masking to joint optimization across tasks, and a multistage curriculum, yielding robust representations, strengthening A-V aligned world knowledge, and preventing unimodal collapse. For datasets, we present the first large-scale audio-video dataset with dense captions, and introduce a novel automated data-construction pipeline which annotates and filters millions of diverse, high-quality, strictly aligned audio-video-caption triplets. Building on this, Klear scales to large datasets, delivering high-fidelity, semantically and temporally aligned, instruction-following generation in both joint and unimodal settings while generalizing robustly to out-of-distribution scenarios. Across tasks, it substantially outperforms prior methods by a large margin and achieves performance comparable to Veo 3, offering a unified, scalable path toward next-generation audio-video synthesis.