ChatPaper.aiChatPaper

Klear: Geünificeerde Multi-Taak Gezamenlijke Audio-Video Generatie

Klear: Unified Multi-Task Audio-Video Joint Generation

January 7, 2026
Auteurs: Jun Wang, Chunyu Qiang, Yuxin Guo, Yiran Wang, Xijuan Zeng, Chen Zhang, Pengfei Wan
cs.AI

Samenvatting

Audio-videogeïntegreerde generatie heeft een snelle vooruitgang geboekt, maar er blijven aanzienlijke uitdagingen bestaan. Niet-commerciële benaderingen kampen nog steeds met audio-visuele asynchronie, slechte lip-spraakafstemming en unimodale degradatie, wat kan worden herleid tot zwakke audio-visuele correspondentiemodellering, beperkte generalisatie en schaarse hoogwaardige dense-caption data. Om deze problemen aan te pakken, introduceren we Klear en verdiepen we ons in drie assen: modelarchitectuur, trainingsstrategie en datacuratie. Architecturaal hanteren we een single-tower ontwerp met verenigde DiT-blokken en een Omni-Full Attention-mechanisme, waarmee we strakke audio-visuele synchronisatie en sterke schaalbaarheid bereiken. Qua training gebruiken we een progressief multitask-regime—willekeurige modaliteitsmaskering voor gezamenlijke optimalisatie tussen taken, en een meerfasig curriculum—wat robuuste representaties oplevert, audio-visueel afgestemde wereldkennis versterkt en unimodale ineenstorting voorkomt. Voor datasets presenteren we de eerste grootschalige audio-videodataset met dense captions, en introduceren we een nieuwe geautomatiseerde dataconstructiepijplijn die miljoenen diverse, hoogwaardige, strikt gesynchroniseerde audio-video-caption triplets annoteert en filtert. Hierop voortbouwend schaalt Klear naar grote datasets, levert het hoogwaardige, semantisch en temporeel afgestemde, instructievolgende generatie in zowel gezamenlijke als unimodale settings, en generaliseert het robuust naar out-of-distribution scenario's. Over alle taken heen overtreft het eerdere methoden aanzienlijk en bereikt het prestaties vergelijkbaar met Veo 3, waarmee het een verenigde, schaalbare weg biedt naar volgende-generatie audio-videosynthese.
English
Audio-video joint generation has progressed rapidly, yet substantial challenges still remain. Non-commercial approaches still suffer audio-visual asynchrony, poor lip-speech alignment, and unimodal degradation, which can be stemmed from weak audio-visual correspondence modeling, limited generalization, and scarce high-quality dense-caption data. To address these issues, we introduce Klear and delve into three axes--model architecture, training strategy, and data curation. Architecturally, we adopt a single-tower design with unified DiT blocks and an Omni-Full Attention mechanism, achieving tight audio-visual alignment and strong scalability. Training-wise, we adopt a progressive multitask regime--random modality masking to joint optimization across tasks, and a multistage curriculum, yielding robust representations, strengthening A-V aligned world knowledge, and preventing unimodal collapse. For datasets, we present the first large-scale audio-video dataset with dense captions, and introduce a novel automated data-construction pipeline which annotates and filters millions of diverse, high-quality, strictly aligned audio-video-caption triplets. Building on this, Klear scales to large datasets, delivering high-fidelity, semantically and temporally aligned, instruction-following generation in both joint and unimodal settings while generalizing robustly to out-of-distribution scenarios. Across tasks, it substantially outperforms prior methods by a large margin and achieves performance comparable to Veo 3, offering a unified, scalable path toward next-generation audio-video synthesis.
PDF91January 9, 2026