Kimi-VL 기술 보고서
Kimi-VL Technical Report
April 10, 2025
저자: Kimi Team, Angang Du, Bohong Yin, Bowei Xing, Bowen Qu, Bowen Wang, Cheng Chen, Chenlin Zhang, Chenzhuang Du, Chu Wei, Congcong Wang, Dehao Zhang, Dikang Du, Dongliang Wang, Enming Yuan, Enzhe Lu, Fang Li, Flood Sung, Guangda Wei, Guokun Lai, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haoning Wu, Haotian Yao, Haoyu Lu, Heng Wang, Hongcheng Gao, Huabin Zheng, Jiaming Li, Jianlin Su, Jianzhou Wang, Jiaqi Deng, Jiezhong Qiu, Jin Xie, Jinhong Wang, Jingyuan Liu, Junjie Yan, Kun Ouyang, Liang Chen, Lin Sui, Longhui Yu, Mengfan Dong, Mengnan Dong, Nuo Xu, Pengyu Cheng, Qizheng Gu, Runjie Zhou, Shaowei Liu, Sihan Cao, Tao Yu, Tianhui Song, Tongtong Bai, Wei Song, Weiran He, Weixiao Huang, Weixin Xu, Xiaokun Yuan, Xingcheng Yao, Xingzhe Wu, Xinxing Zu, Xinyu Zhou, Xinyuan Wang, Y. Charles, Yan Zhong, Yang Li, Yangyang Hu, Yanru Chen, Yejie Wang, Yibo Liu, Yibo Miao, Yidao Qin, Yimin Chen, Yiping Bao, Yiqin Wang, Yongsheng Kang, Yuanxin Liu, Yulun Du, Yuxin Wu, Yuzhi Wang, Yuzi Yan, Zaida Zhou, Zhaowei Li, Zhejun Jiang, Zheng Zhang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Zijia Zhao, Ziwei Chen
cs.AI
초록
우리는 효율적인 오픈소스 Mixture-of-Experts(MoE) 비전-언어 모델(VLM)인 Kimi-VL을 소개합니다. 이 모델은 고급 다중모달 추론, 장문맥 이해, 그리고 강력한 에이전트 능력을 제공하면서도 언어 디코더에서 단 2.8B 파라미터만 활성화합니다(Kimi-VL-A3B). Kimi-VL은 다양한 도전적인 영역에서 강력한 성능을 보여줍니다: 범용 VLM으로서, Kimi-VL은 OSWorld와 같은 다중 턴 에이전트 작업에서 플래그십 모델과 견줄 만한 성능을 발휘합니다. 또한, 대학 수준의 이미지 및 비디오 이해, OCR, 수학적 추론, 다중 이미지 이해 등 다양한 도전적인 비전 언어 작업에서도 뛰어난 능력을 보여줍니다. 비교 평가에서 Kimi-VL은 GPT-4o-mini, Qwen2.5-VL-7B, Gemma-3-12B-IT와 같은 최첨단 효율적 VLMs과 효과적으로 경쟁하며, 여러 주요 영역에서 GPT-4o를 능가합니다. Kimi-VL은 또한 장문맥 처리와 명확한 인식에서도 진보를 이루었습니다. 128K 확장 문맥 창을 통해 Kimi-VL은 다양한 장문 입력을 처리할 수 있으며, LongVideoBench에서 64.5, MMLongBench-Doc에서 35.1의 인상적인 점수를 달성했습니다. 네이티브 해상도 비전 인코더인 MoonViT는 초고해상도 시각 입력을 보고 이해할 수 있게 하여, InfoVQA에서 83.2, ScreenSpot-Pro에서 34.5의 점수를 달성하면서도 일반 작업에서 더 낮은 계산 비용을 유지합니다. Kimi-VL을 기반으로, 우리는 고급 장기 사고 변형인 Kimi-VL-Thinking을 소개합니다. 이 모델은 장기 사슬 사고(CoT) 지도 미세 조정(SFT)과 강화 학습(RL)을 통해 개발되었으며, 강력한 장기 추론 능력을 보여줍니다. MMMU에서 61.7, MathVision에서 36.8, MathVista에서 71.3의 점수를 달성하면서도 컴팩트한 2.8B 활성화 LLM 파라미터를 유지하여, 효율적인 다중모달 사고 모델의 새로운 표준을 세웠습니다. 코드와 모델은 https://github.com/MoonshotAI/Kimi-VL에서 공개적으로 접근 가능합니다.
English
We present Kimi-VL, an efficient open-source Mixture-of-Experts (MoE)
vision-language model (VLM) that offers advanced multimodal reasoning,
long-context understanding, and strong agent capabilities - all while
activating only 2.8B parameters in its language decoder (Kimi-VL-A3B). Kimi-VL
demonstrates strong performance across challenging domains: as a
general-purpose VLM, Kimi-VL excels in multi-turn agent tasks (e.g., OSWorld),
matching flagship models. Furthermore, it exhibits remarkable capabilities
across diverse challenging vision language tasks, including college-level image
and video comprehension, OCR, mathematical reasoning, and multi-image
understanding. In comparative evaluations, it effectively competes with
cutting-edge efficient VLMs such as GPT-4o-mini, Qwen2.5-VL-7B, and
Gemma-3-12B-IT, while surpassing GPT-4o in several key domains. Kimi-VL also
advances in processing long contexts and perceiving clearly. With a 128K
extended context window, Kimi-VL can process diverse long inputs, achieving
impressive scores of 64.5 on LongVideoBench and 35.1 on MMLongBench-Doc. Its
native-resolution vision encoder, MoonViT, further allows it to see and
understand ultra-high-resolution visual inputs, achieving 83.2 on InfoVQA and
34.5 on ScreenSpot-Pro, while maintaining lower computational cost for common
tasks. Building upon Kimi-VL, we introduce an advanced long-thinking variant:
Kimi-VL-Thinking. Developed through long chain-of-thought (CoT) supervised
fine-tuning (SFT) and reinforcement learning (RL), this model exhibits strong
long-horizon reasoning capabilities. It achieves scores of 61.7 on MMMU, 36.8
on MathVision, and 71.3 on MathVista while maintaining the compact 2.8B
activated LLM parameters, setting a new standard for efficient multimodal
thinking models. Code and models are publicly accessible at
https://github.com/MoonshotAI/Kimi-VL.Summary
AI-Generated Summary