Kling-Omni 技術レポート
Kling-Omni Technical Report
December 18, 2025
著者: Kling Team, Jialu Chen, Yuanzheng Ci, Xiangyu Du, Zipeng Feng, Kun Gai, Sainan Guo, Feng Han, Jingbin He, Kang He, Xiao Hu, Xiaohua Hu, Boyuan Jiang, Fangyuan Kong, Hang Li, Jie Li, Qingyu Li, Shen Li, Xiaohan Li, Yan Li, Jiajun Liang, Borui Liao, Yiqiao Liao, Weihong Lin, Quande Liu, Xiaokun Liu, Yilun Liu, Yuliang Liu, Shun Lu, Hangyu Mao, Yunyao Mao, Haodong Ouyang, Wenyu Qin, Wanqi Shi, Xiaoyu Shi, Lianghao Su, Haozhi Sun, Peiqin Sun, Pengfei Wan, Chao Wang, Chenyu Wang, Meng Wang, Qiulin Wang, Runqi Wang, Xintao Wang, Xuebo Wang, Zekun Wang, Min Wei, Tiancheng Wen, Guohao Wu, Xiaoshi Wu, Zhenhua Wu, Da Xie, Yingtong Xiong, Yulong Xu, Sile Yang, Zikang Yang, Weicai Ye, Ziyang Yuan, Shenglong Zhang, Shuaiyu Zhang, Yuanxing Zhang, Yufan Zhang, Wenzheng Zhao, Ruiliang Zhou, Yan Zhou, Guosheng Zhu, Yongjie Zhu
cs.AI
要旨
我々はKling-Omniを提案する。これはマルチモーダルな視覚言語入力から直接高精細な映像を合成する汎用生成フレームワークである。エンドツーエンドの視点を採用したKling-Omniは、多様な映像生成・編集・知的推論タスク間の機能的分断を架橋し、それらを統合的なシステムとして統合する。個別のパイプラインアプローチとは異なり、Kling-Omniはテキスト指示、参照画像、映像コンテキストなど多様なユーザー入力をサポートし、それらを統一的なマルチモーダル表現に処理することで、映画品質かつ高度に知的な映像コンテンツ制作を実現する。これらの機能を支えるため、我々はマルチモーダル映像制作の基盤となる包括的なデータシステムを構築した。本フレームワークは、効率的な大規模事前学習戦略と推論のためのインフラ最適化によってさらに強化されている。包括的評価により、Kling-Omniが文脈内生成、推論に基づく編集、マルチモーダル指示の追従において卓越した能力を発揮することが明らかとなった。単なるコンテンツ制作ツールを超えて、Kling-Omniは動的で複雑な世界を認識・推論・生成・相互作用できるマルチモーダル世界シミュレーターに向けた画期的な進展であると我々は考える。
English
We present Kling-Omni, a generalist generative framework designed to synthesize high-fidelity videos directly from multimodal visual language inputs. Adopting an end-to-end perspective, Kling-Omni bridges the functional separation among diverse video generation, editing, and intelligent reasoning tasks, integrating them into a holistic system. Unlike disjointed pipeline approaches, Kling-Omni supports a diverse range of user inputs, including text instructions, reference images, and video contexts, processing them into a unified multimodal representation to deliver cinematic-quality and highly-intelligent video content creation. To support these capabilities, we constructed a comprehensive data system that serves as the foundation for multimodal video creation. The framework is further empowered by efficient large-scale pre-training strategies and infrastructure optimizations for inference. Comprehensive evaluations reveal that Kling-Omni demonstrates exceptional capabilities in in-context generation, reasoning-based editing, and multimodal instruction following. Moving beyond a content creation tool, we believe Kling-Omni is a pivotal advancement toward multimodal world simulators capable of perceiving, reasoning, generating and interacting with the dynamic and complex worlds.