Klear: 통합 멀티태스크 오디오-비디오 결합 생성
Klear: Unified Multi-Task Audio-Video Joint Generation
January 7, 2026
저자: Jun Wang, Chunyu Qiang, Yuxin Guo, Yiran Wang, Xijuan Zeng, Chen Zhang, Pengfei Wan
cs.AI
초록
오디오-비디오 결합 생성 기술은 빠르게 발전했지만 여전히 상당한 과제가 남아 있습니다. 비상업적 접근법들은 오디오-비디오 비동기화, 입모양-음성 정렬 불일치, 단일 모달리티 성능 저하 등의 문제를 겪는데, 이는 약한 오디오-비디오 상관관계 모델링, 제한된 일반화 능력, 고품질 고밀도 캡션 데이터의 부족에서 기인합니다. 이러한 문제를 해결하기 위해 우리는 Klear를 소개하고 모델 아키텍처, 학습 전략, 데이터 구성이라는 세 가지 축을 심층적으로 분석합니다.
아키텍처 측면에서는 통합 DiT 블록과 Omni-풀 주의 메커니즘을 적용한 싱글 타워 설계를 채택하여 강력한 오디오-비디오 정렬과 확장성을 달성했습니다. 학습 전략에서는 무작위 모달리티 마스킹부터 작업 간 통합 최적화에 이르는 점진적 다중 작업 방식과 다단계 커리큘럼을 도입하여 견고한 표현 학습, 오디오-비디오 정렬된 세계 지식 강화, 단일 모달리티 붕괴 방지를 실현했습니다. 데이터 측면에서는 고밀도 캡션이 포함된 최초의 대규모 오디오-비디오 데이터셋을 제시하고, 수백만 개의 다양하고 고품질이며 엄격하게 정렬된 오디오-비디오-캡션 삼중항을 자동으로 주석 처리 및 필터링하는 새로운 데이터 구축 파이프라인을 도입했습니다.
이를 기반으로 Klear는 대규모 데이터셋으로 확장 가능하며, 결합 및 단일 모달리티 설정 모두에서 높은 충실도와 의미적/시간적 정렬을 갖춘 지시 따르기 생성 능력을 보여주면서 분포 외 시나리오에 대해 강력한 일반화 성능을 발휘합니다. 다양한 작업에서 기존 방법들을 큰 차이로 크게 앞지르며 Veo 3에 버금가는 성능을 달성함으로써 차세대 오디오-비디오 합성을 위한 통합적이고 확장 가능한 길을 제시합니다.
English
Audio-video joint generation has progressed rapidly, yet substantial challenges still remain. Non-commercial approaches still suffer audio-visual asynchrony, poor lip-speech alignment, and unimodal degradation, which can be stemmed from weak audio-visual correspondence modeling, limited generalization, and scarce high-quality dense-caption data. To address these issues, we introduce Klear and delve into three axes--model architecture, training strategy, and data curation. Architecturally, we adopt a single-tower design with unified DiT blocks and an Omni-Full Attention mechanism, achieving tight audio-visual alignment and strong scalability. Training-wise, we adopt a progressive multitask regime--random modality masking to joint optimization across tasks, and a multistage curriculum, yielding robust representations, strengthening A-V aligned world knowledge, and preventing unimodal collapse. For datasets, we present the first large-scale audio-video dataset with dense captions, and introduce a novel automated data-construction pipeline which annotates and filters millions of diverse, high-quality, strictly aligned audio-video-caption triplets. Building on this, Klear scales to large datasets, delivering high-fidelity, semantically and temporally aligned, instruction-following generation in both joint and unimodal settings while generalizing robustly to out-of-distribution scenarios. Across tasks, it substantially outperforms prior methods by a large margin and achieves performance comparable to Veo 3, offering a unified, scalable path toward next-generation audio-video synthesis.