Klear: Generazione Congiunta Audio-Video Multi-Task Unificata

Abstract

La generazione congiunta audio-video ha compiuto rapidi progressi, ma permangono sfide significative. Gli approcci non commerciali continuano a soffrire di asincronia audiovisiva, scarso allineamento labiale-verbale e degrado unimodale, problemi riconducibili a una modellazione debole della corrispondenza audiovisiva, a una limitata generalizzazione e alla carenza di dati di alta qualità con didascalie dense. Per affrontare queste problematiche, presentiamo Klear e approfondiamo tre assi: architettura del modello, strategia di addestramento e cura dei dati. Dal punto di vista architetturale, adottiamo un design a torre unica con blocchi DiT unificati e un meccanismo di Attention Omni-Full, ottenendo un allineamento audio-video stretto e una forte scalabilità. Per l'addestramento, adottiamo un regime progressivo multitask—dalla mascheramento casuale delle modalità all'ottimizzazione congiunta tra i task—e un curriculum multistadio, producendo rappresentazioni robuste, rafforzando la conoscenza del mondo allineata A-V e prevenendo il collasso unimodale. Per i dataset, presentiamo il primo dataset audio-video su larga scala con didascalie dense e introduciamo una nuova pipeline automatizzata per la costruzione dei dati, che annota e filtra milioni di triplette audio-video-didascalia diversificate, di alta qualità e rigorosamente allineate. Su questa base, Klear scala su grandi dataset, fornendo una generazione ad alta fedeltà, semanticamente e temporalmente allineata, e in grado di seguire istruzioni sia in contesti congiunti che unimodali, generalizzando in modo robusto a scenari fuori distribuzione. In tutte le attività, supera sostanzialmente i metodi precedenti con un ampio margine e raggiunge prestazioni comparabili a Veo 3, offrendo un percorso unificato e scalabile verso la sintesi audio-video di prossima generazione.

English

Audio-video joint generation has progressed rapidly, yet substantial challenges still remain. Non-commercial approaches still suffer audio-visual asynchrony, poor lip-speech alignment, and unimodal degradation, which can be stemmed from weak audio-visual correspondence modeling, limited generalization, and scarce high-quality dense-caption data. To address these issues, we introduce Klear and delve into three axes--model architecture, training strategy, and data curation. Architecturally, we adopt a single-tower design with unified DiT blocks and an Omni-Full Attention mechanism, achieving tight audio-visual alignment and strong scalability. Training-wise, we adopt a progressive multitask regime--random modality masking to joint optimization across tasks, and a multistage curriculum, yielding robust representations, strengthening A-V aligned world knowledge, and preventing unimodal collapse. For datasets, we present the first large-scale audio-video dataset with dense captions, and introduce a novel automated data-construction pipeline which annotates and filters millions of diverse, high-quality, strictly aligned audio-video-caption triplets. Building on this, Klear scales to large datasets, delivering high-fidelity, semantically and temporally aligned, instruction-following generation in both joint and unimodal settings while generalizing robustly to out-of-distribution scenarios. Across tasks, it substantially outperforms prior methods by a large margin and achieves performance comparable to Veo 3, offering a unified, scalable path toward next-generation audio-video synthesis.

Klear: Generazione Congiunta Audio-Video Multi-Task Unificata

Klear: Unified Multi-Task Audio-Video Joint Generation

Abstract

Support