ChatPaper.aiChatPaper

Klear: Generación Conjunta Unificada de Audio y Vídeo en Múltiples Tareas

Klear: Unified Multi-Task Audio-Video Joint Generation

January 7, 2026
Autores: Jun Wang, Chunyu Qiang, Yuxin Guo, Yiran Wang, Xijuan Zeng, Chen Zhang, Pengfei Wan
cs.AI

Resumen

La generación conjunta de audio y vídeo ha progresado rápidamente, aunque aún persisten desafíos significativos. Los enfoques no comerciales siguen adoleciendo de asincronía audiovisual, pobre alineación labio-habla y degradación unimodal, problemas que pueden originarse en un modelado débil de la correspondencia audiovisual, una generalización limitada y la escasez de datos de alta calidad con descripciones densas. Para abordar estos problemas, presentamos Klear y profundizamos en tres ejes: arquitectura del modelo, estrategia de entrenamiento y curación de datos. Arquitectónicamente, adoptamos un diseño de torre única con bloques DiT unificados y un mecanismo de Atención Completa Omni, logrando una estrecha alineación audiovisual y una alta escalabilidad. En cuanto al entrenamiento, adoptamos un régimen progresivo de múltiples tareas—enmascaramiento aleatorio de modalidades para la optimización conjunta entre tareas, y un currículum multietapa—generando representaciones robustas, fortaleciendo el conocimiento del mundo alineado audio-vídeo y previniendo el colapso unimodal. Respecto a los conjuntos de datos, presentamos el primer conjunto de datos a gran escala de audio-vídeo con descripciones densas, e introducimos una novedosa canalización automatizada de construcción de datos que anota y filtra millones de tripletas audio-vídeo-descripción, diversas, de alta calidad y estrictamente alineadas. Sobre esta base, Klear escala a grandes conjuntos de datos, ofreciendo una generación de alta fidelidad, semántica y temporalmente alineada, y que sigue instrucciones, tanto en entornos conjuntos como unimodales, al tiempo que generaliza robustamente a escenarios fuera de distribución. En todas las tareas, supera sustancialmente a métodos anteriores por un amplio margen y alcanza un rendimiento comparable al de Veo 3, ofreciendo un camino unificado y escalable hacia la síntesis audiovisual de próxima generación.
English
Audio-video joint generation has progressed rapidly, yet substantial challenges still remain. Non-commercial approaches still suffer audio-visual asynchrony, poor lip-speech alignment, and unimodal degradation, which can be stemmed from weak audio-visual correspondence modeling, limited generalization, and scarce high-quality dense-caption data. To address these issues, we introduce Klear and delve into three axes--model architecture, training strategy, and data curation. Architecturally, we adopt a single-tower design with unified DiT blocks and an Omni-Full Attention mechanism, achieving tight audio-visual alignment and strong scalability. Training-wise, we adopt a progressive multitask regime--random modality masking to joint optimization across tasks, and a multistage curriculum, yielding robust representations, strengthening A-V aligned world knowledge, and preventing unimodal collapse. For datasets, we present the first large-scale audio-video dataset with dense captions, and introduce a novel automated data-construction pipeline which annotates and filters millions of diverse, high-quality, strictly aligned audio-video-caption triplets. Building on this, Klear scales to large datasets, delivering high-fidelity, semantically and temporally aligned, instruction-following generation in both joint and unimodal settings while generalizing robustly to out-of-distribution scenarios. Across tasks, it substantially outperforms prior methods by a large margin and achieves performance comparable to Veo 3, offering a unified, scalable path toward next-generation audio-video synthesis.
PDF91January 9, 2026