ChatPaper.aiChatPaper

Klear: Единая многозадачная совместная генерация аудио и видео

Klear: Unified Multi-Task Audio-Video Joint Generation

January 7, 2026
Авторы: Jun Wang, Chunyu Qiang, Yuxin Guo, Yiran Wang, Xijuan Zeng, Chen Zhang, Pengfei Wan
cs.AI

Аннотация

Совместная генерация аудио и видео быстро развивается, однако значительные проблемы сохраняются. Некоммерческие подходы по-прежнему страдают от асинхронности аудиовизуального контента, плохого соответствия движений губ речи и деградации унимодальных данных, что может быть следствием слабого моделирования аудиовизуальных соответствий, ограниченной обобщающей способности и недостатка высококачественных данных с плотными описаниями. Для решения этих проблем мы представляем Klear и исследуем три направления: архитектуру модели, стратегию обучения и курацию данных. В архитектурном плане мы используем одно-башенную конструкцию с унифицированными DiT-блоками и механизмом Omni-Full Attention, достигая тесного аудиовизуального соответствия и высокой масштабируемости. В обучении применяется прогрессивный многозадачный режим — случайное маскирование модальностей для совместной оптимизации задач и многоэтапный учебный план, что формирует устойчивые представления, укрепляет согласованные с A-V знания о мире и предотвращает коллапс унимодальности. Для наборов данных мы представляем первый крупномасштабный аудиовизуальный датасет с плотными описаниями и вводим новейший автоматизированный конвейер создания данных, который аннотирует и фильтрует миллионы разнообразных, высококачественных, строго согласованных триплетов «аудио-видео-описание». На этой основе Klear масштабируется на большие наборы данных, обеспечивая генерацию высокой точности, семантически и временно согласованную, следующую инструкциям как в совместных, так и в унимодальных сценариях, при этом устойчиво обобщаясь на ситуации за пределами распределения данных. По всем задачам метод существенно превосходит предыдущие подходы с большим отрывом и демонстрирует производительность, сопоставимую с Veo 3, предлагая унифицированный, масштабируемый путь к синтезу аудио и видео следующего поколения.
English
Audio-video joint generation has progressed rapidly, yet substantial challenges still remain. Non-commercial approaches still suffer audio-visual asynchrony, poor lip-speech alignment, and unimodal degradation, which can be stemmed from weak audio-visual correspondence modeling, limited generalization, and scarce high-quality dense-caption data. To address these issues, we introduce Klear and delve into three axes--model architecture, training strategy, and data curation. Architecturally, we adopt a single-tower design with unified DiT blocks and an Omni-Full Attention mechanism, achieving tight audio-visual alignment and strong scalability. Training-wise, we adopt a progressive multitask regime--random modality masking to joint optimization across tasks, and a multistage curriculum, yielding robust representations, strengthening A-V aligned world knowledge, and preventing unimodal collapse. For datasets, we present the first large-scale audio-video dataset with dense captions, and introduce a novel automated data-construction pipeline which annotates and filters millions of diverse, high-quality, strictly aligned audio-video-caption triplets. Building on this, Klear scales to large datasets, delivering high-fidelity, semantically and temporally aligned, instruction-following generation in both joint and unimodal settings while generalizing robustly to out-of-distribution scenarios. Across tasks, it substantially outperforms prior methods by a large margin and achieves performance comparable to Veo 3, offering a unified, scalable path toward next-generation audio-video synthesis.
PDF91January 9, 2026