Klear : Génération conjointe audio-vidéo unifiée multi-tâches
Klear: Unified Multi-Task Audio-Video Joint Generation
January 7, 2026
papers.authors: Jun Wang, Chunyu Qiang, Yuxin Guo, Yiran Wang, Xijuan Zeng, Chen Zhang, Pengfei Wan
cs.AI
papers.abstract
La génération conjointe audio-vidéo a progressé rapidement, mais des défis substantiels persistent. Les approches non commerciales souffrent encore d'asynchronisme audio-visuel, d'un mauvais alignement labial-oral et de dégradation unimodale, problèmes pouvant provenir d'une modélisation faible de la correspondance audio-visuelle, d'une généralisation limitée et d'une pénurie de données denses de haute qualité avec descriptions. Pour résoudre ces problèmes, nous présentons Klear et explorons trois axes - l'architecture du modèle, la stratégie d'entraînement et la curation des données. Sur le plan architectural, nous adoptons une conception à tour unique avec des blocs DiT unifiés et un mécanisme d'attention omnidirectionnelle complète, permettant un alignement audio-visuel serré et une forte évolutivité. Pour l'entraînement, nous utilisons un régime multitâche progressif - masquage aléatoire des modalités pour une optimisation conjointe entre les tâches, et un curriculum en plusieurs étapes, produisant des représentations robustes, renforçant les connaissances mondiales alignées A-V et empêchant l'effondrement unimodal. Concernant les données, nous présentons le premier jeu de données audio-vidéo à grande échelle avec descriptions denses, et introduisons une nouvelle pipeline automatisée de construction de données qui annote et filtre des millions de triplets audio-vidéo-description diversifiés, de haute qualité et strictement alignés. Sur cette base, Klear s'adapte aux grands jeux de données, offrant une génération haute fidélité, sémantiquement et temporellement alignée, suivant les instructions dans des contextes conjoints et unimodaux tout en généralisant robustement aux scénarios hors distribution. Sur diverses tâches, il surpasse substantiellement les méthodes antérieures par une large marge et atteint des performances comparables à Veo 3, ouvrant une voie unifiée et évolutive vers la synthèse audio-vidéo de nouvelle génération.
English
Audio-video joint generation has progressed rapidly, yet substantial challenges still remain. Non-commercial approaches still suffer audio-visual asynchrony, poor lip-speech alignment, and unimodal degradation, which can be stemmed from weak audio-visual correspondence modeling, limited generalization, and scarce high-quality dense-caption data. To address these issues, we introduce Klear and delve into three axes--model architecture, training strategy, and data curation. Architecturally, we adopt a single-tower design with unified DiT blocks and an Omni-Full Attention mechanism, achieving tight audio-visual alignment and strong scalability. Training-wise, we adopt a progressive multitask regime--random modality masking to joint optimization across tasks, and a multistage curriculum, yielding robust representations, strengthening A-V aligned world knowledge, and preventing unimodal collapse. For datasets, we present the first large-scale audio-video dataset with dense captions, and introduce a novel automated data-construction pipeline which annotates and filters millions of diverse, high-quality, strictly aligned audio-video-caption triplets. Building on this, Klear scales to large datasets, delivering high-fidelity, semantically and temporally aligned, instruction-following generation in both joint and unimodal settings while generalizing robustly to out-of-distribution scenarios. Across tasks, it substantially outperforms prior methods by a large margin and achieves performance comparable to Veo 3, offering a unified, scalable path toward next-generation audio-video synthesis.