Klear: Vereinheitlichte Multitask-Generierung von Audio und Video
Klear: Unified Multi-Task Audio-Video Joint Generation
January 7, 2026
papers.authors: Jun Wang, Chunyu Qiang, Yuxin Guo, Yiran Wang, Xijuan Zeng, Chen Zhang, Pengfei Wan
cs.AI
papers.abstract
Die gemeinsame Audio-Video-Generierung hat rasante Fortschritte gemacht, doch bestehen nach wie vor erhebliche Herausforderungen. Nicht-kommerzielle Ansätze leiden unter Audio-Video-Asynchronität, mangelhafter Lippen-Sprach-Abgleichung und unimodaler Verschlechterung, was auf schwache Audio-Video-Korrespondenzmodellierung, begrenzte Generalisierungsfähigkeit und knappe hochwertige Dense-Caption-Daten zurückgeführt werden kann. Um diese Probleme zu adressieren, stellen wir Klear vor und untersuchen drei Achsen: Modellarchitektur, Trainingsstrategie und Datenkuratierung. Architektonisch verwenden wir ein Single-Tower-Design mit vereinheitlichten DiT-Blöcken und einem Omni-Full-Attention-Mechanismus, wodurch eine enge Audio-Video-Abgleichung und hohe Skalierbarkeit erreicht werden. Trainingsseitig setzen wir auf ein progressives Multitask-Regime – zufällige Modalitätsmaskierung zur gemeinsamen Optimierung über Aufgaben hinweg – sowie einen mehrstufigen Lehrplan, der robuste Repräsentationen erzeugt, das A-V-ausgerichtete Weltwissen stärkt und unimodalen Kollaps verhindert. Für Datensätze präsentieren wir den ersten großangelegten Audio-Video-Datensatz mit dichten Beschreibungen und führen eine neuartige automatisierte Datenkonstruktions-Pipeline ein, die Millionen vielfältiger, hochwertiger, streng abgeglichener Audio-Video-Beschreibungs-Tripel annotiert und filtert. Auf dieser Grundlage skaliert Klear auf große Datensätze, liefert hochgradig authentische, semantisch und temporal abgeglichene, befehlsfolgende Generierung in gemeinsamen und unimodalen Settings und generalisiert robust auf Out-of-Distribution-Szenarien. Über verschiedene Aufgaben hinweg übertrifft es frühere Methoden erheblich und erreicht eine mit Veo 3 vergleichbare Leistung, wodurch es einen vereinheitlichten, skalierbaren Weg zur nächsten Generation der Audio-Video-Synthese ebnet.
English
Audio-video joint generation has progressed rapidly, yet substantial challenges still remain. Non-commercial approaches still suffer audio-visual asynchrony, poor lip-speech alignment, and unimodal degradation, which can be stemmed from weak audio-visual correspondence modeling, limited generalization, and scarce high-quality dense-caption data. To address these issues, we introduce Klear and delve into three axes--model architecture, training strategy, and data curation. Architecturally, we adopt a single-tower design with unified DiT blocks and an Omni-Full Attention mechanism, achieving tight audio-visual alignment and strong scalability. Training-wise, we adopt a progressive multitask regime--random modality masking to joint optimization across tasks, and a multistage curriculum, yielding robust representations, strengthening A-V aligned world knowledge, and preventing unimodal collapse. For datasets, we present the first large-scale audio-video dataset with dense captions, and introduce a novel automated data-construction pipeline which annotates and filters millions of diverse, high-quality, strictly aligned audio-video-caption triplets. Building on this, Klear scales to large datasets, delivering high-fidelity, semantically and temporally aligned, instruction-following generation in both joint and unimodal settings while generalizing robustly to out-of-distribution scenarios. Across tasks, it substantially outperforms prior methods by a large margin and achieves performance comparable to Veo 3, offering a unified, scalable path toward next-generation audio-video synthesis.