클링-옴니 기술 보고서
Kling-Omni Technical Report
December 18, 2025
저자: Kling Team, Jialu Chen, Yuanzheng Ci, Xiangyu Du, Zipeng Feng, Kun Gai, Sainan Guo, Feng Han, Jingbin He, Kang He, Xiao Hu, Xiaohua Hu, Boyuan Jiang, Fangyuan Kong, Hang Li, Jie Li, Qingyu Li, Shen Li, Xiaohan Li, Yan Li, Jiajun Liang, Borui Liao, Yiqiao Liao, Weihong Lin, Quande Liu, Xiaokun Liu, Yilun Liu, Yuliang Liu, Shun Lu, Hangyu Mao, Yunyao Mao, Haodong Ouyang, Wenyu Qin, Wanqi Shi, Xiaoyu Shi, Lianghao Su, Haozhi Sun, Peiqin Sun, Pengfei Wan, Chao Wang, Chenyu Wang, Meng Wang, Qiulin Wang, Runqi Wang, Xintao Wang, Xuebo Wang, Zekun Wang, Min Wei, Tiancheng Wen, Guohao Wu, Xiaoshi Wu, Zhenhua Wu, Da Xie, Yingtong Xiong, Yulong Xu, Sile Yang, Zikang Yang, Weicai Ye, Ziyang Yuan, Shenglong Zhang, Shuaiyu Zhang, Yuanxing Zhang, Yufan Zhang, Wenzheng Zhao, Ruiliang Zhou, Yan Zhou, Guosheng Zhu, Yongjie Zhu
cs.AI
초록
본 논문에서는 다중모달 시각 언어 입력으로부터 고화질 비디오를 직접 합성하기 위해 설계된 범용 생성 프레임워크인 Kling-Omni를 제안합니다. Kling-Omni는 종단간 관점을 채택하여 다양한 비디오 생성, 편집 및 지능형 추론 작업 간의 기능적 분리를 연결하고 이를 하나의 통합 시스템으로 통합합니다. 분리된 파이프라인 접근법과 달리, Kling-Omni는 텍스트 지시, 참조 이미지, 비디오 컨텍스트를 포함한 다양한 사용자 입력을 지원하며, 이를 통합된 다중모달 표현으로 처리하여 영화급 화질과 높은 지능을 갖춘 비디오 콘텐츠를 생성합니다. 이러한 기능을 지원하기 위해 우리는 다중모달 비디오 생성의 기반이 되는 포괄적인 데이터 시스템을 구축했습니다. 또한 효율적인 대규모 사전 학습 전략과 추론을 위한 인프라 최적화를 통해 프레임워크의 성능을 강화했습니다. 포괄적인 평가 결과, Kling-Omni는 컨텍스트 내 생성, 추론 기반 편집, 다중모달 지시 따르기에서 탁월한 능력을 보여줍니다. Kling-Omni는 단순한 콘텐츠 생성 도구를 넘어, 역동적이고 복잡한 세계를 지각하고, 추론하며, 생성하고, 상호작용할 수 있는 다중모달 세계 시뮬레이터로 나아가는 중추적인 진전이라고 믿습니다.
English
We present Kling-Omni, a generalist generative framework designed to synthesize high-fidelity videos directly from multimodal visual language inputs. Adopting an end-to-end perspective, Kling-Omni bridges the functional separation among diverse video generation, editing, and intelligent reasoning tasks, integrating them into a holistic system. Unlike disjointed pipeline approaches, Kling-Omni supports a diverse range of user inputs, including text instructions, reference images, and video contexts, processing them into a unified multimodal representation to deliver cinematic-quality and highly-intelligent video content creation. To support these capabilities, we constructed a comprehensive data system that serves as the foundation for multimodal video creation. The framework is further empowered by efficient large-scale pre-training strategies and infrastructure optimizations for inference. Comprehensive evaluations reveal that Kling-Omni demonstrates exceptional capabilities in in-context generation, reasoning-based editing, and multimodal instruction following. Moving beyond a content creation tool, we believe Kling-Omni is a pivotal advancement toward multimodal world simulators capable of perceiving, reasoning, generating and interacting with the dynamic and complex worlds.