Kimi-VL 技術レポート
Kimi-VL Technical Report
April 10, 2025
著者: Kimi Team, Angang Du, Bohong Yin, Bowei Xing, Bowen Qu, Bowen Wang, Cheng Chen, Chenlin Zhang, Chenzhuang Du, Chu Wei, Congcong Wang, Dehao Zhang, Dikang Du, Dongliang Wang, Enming Yuan, Enzhe Lu, Fang Li, Flood Sung, Guangda Wei, Guokun Lai, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haoning Wu, Haotian Yao, Haoyu Lu, Heng Wang, Hongcheng Gao, Huabin Zheng, Jiaming Li, Jianlin Su, Jianzhou Wang, Jiaqi Deng, Jiezhong Qiu, Jin Xie, Jinhong Wang, Jingyuan Liu, Junjie Yan, Kun Ouyang, Liang Chen, Lin Sui, Longhui Yu, Mengfan Dong, Mengnan Dong, Nuo Xu, Pengyu Cheng, Qizheng Gu, Runjie Zhou, Shaowei Liu, Sihan Cao, Tao Yu, Tianhui Song, Tongtong Bai, Wei Song, Weiran He, Weixiao Huang, Weixin Xu, Xiaokun Yuan, Xingcheng Yao, Xingzhe Wu, Xinxing Zu, Xinyu Zhou, Xinyuan Wang, Y. Charles, Yan Zhong, Yang Li, Yangyang Hu, Yanru Chen, Yejie Wang, Yibo Liu, Yibo Miao, Yidao Qin, Yimin Chen, Yiping Bao, Yiqin Wang, Yongsheng Kang, Yuanxin Liu, Yulun Du, Yuxin Wu, Yuzhi Wang, Yuzi Yan, Zaida Zhou, Zhaowei Li, Zhejun Jiang, Zheng Zhang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Zijia Zhao, Ziwei Chen
cs.AI
要旨
私たちは、効率的なオープンソースのMixture-of-Experts(MoE)ビジョン言語モデル(VLM)であるKimi-VLを紹介します。このモデルは、高度なマルチモーダル推論、長文脈理解、そして強力なエージェント能力を提供し、言語デコーダではわずか2.8Bのパラメータを活性化します(Kimi-VL-A3B)。Kimi-VLは、挑戦的なドメインで優れたパフォーマンスを発揮します。汎用VLMとして、Kimi-VLはマルチターンエージェントタスク(例:OSWorld)でトップモデルに匹敵する性能を示します。さらに、大学レベルの画像や動画の理解、OCR、数学的推論、複数画像の理解など、多様な困難なビジョン言語タスクで顕著な能力を発揮します。比較評価では、GPT-4o-mini、Qwen2.5-VL-7B、Gemma-3-12B-ITなどの最先端の効率的なVLMと効果的に競い、いくつかの主要なドメインでGPT-4oを上回ります。Kimi-VLは、長文脈の処理と明確な知覚においても進歩しています。128Kの拡張文脈ウィンドウを備えたKimi-VLは、多様な長い入力を処理し、LongVideoBenchで64.5、MMLongBench-Docで35.1の印象的なスコアを達成します。そのネイティブ解像度のビジョンエンコーダーであるMoonViTにより、超高解像度の視覚入力を認識し、理解することが可能で、InfoVQAで83.2、ScreenSpot-Proで34.5のスコアを達成しながら、一般的なタスクでの計算コストを低く抑えています。Kimi-VLを基盤として、高度な長考バリアントであるKimi-VL-Thinkingを導入します。このモデルは、長い連鎖思考(CoT)の教師あり微調整(SFT)と強化学習(RL)を通じて開発され、強力な長期的推論能力を示します。MMMUで61.7、MathVisionで36.8、MathVistaで71.3のスコアを達成し、コンパクトな2.8Bの活性化LLMパラメータを維持しながら、効率的なマルチモーダル思考モデルの新たな基準を設定します。コードとモデルはhttps://github.com/MoonshotAI/Kimi-VLで公開されています。
English
We present Kimi-VL, an efficient open-source Mixture-of-Experts (MoE)
vision-language model (VLM) that offers advanced multimodal reasoning,
long-context understanding, and strong agent capabilities - all while
activating only 2.8B parameters in its language decoder (Kimi-VL-A3B). Kimi-VL
demonstrates strong performance across challenging domains: as a
general-purpose VLM, Kimi-VL excels in multi-turn agent tasks (e.g., OSWorld),
matching flagship models. Furthermore, it exhibits remarkable capabilities
across diverse challenging vision language tasks, including college-level image
and video comprehension, OCR, mathematical reasoning, and multi-image
understanding. In comparative evaluations, it effectively competes with
cutting-edge efficient VLMs such as GPT-4o-mini, Qwen2.5-VL-7B, and
Gemma-3-12B-IT, while surpassing GPT-4o in several key domains. Kimi-VL also
advances in processing long contexts and perceiving clearly. With a 128K
extended context window, Kimi-VL can process diverse long inputs, achieving
impressive scores of 64.5 on LongVideoBench and 35.1 on MMLongBench-Doc. Its
native-resolution vision encoder, MoonViT, further allows it to see and
understand ultra-high-resolution visual inputs, achieving 83.2 on InfoVQA and
34.5 on ScreenSpot-Pro, while maintaining lower computational cost for common
tasks. Building upon Kimi-VL, we introduce an advanced long-thinking variant:
Kimi-VL-Thinking. Developed through long chain-of-thought (CoT) supervised
fine-tuning (SFT) and reinforcement learning (RL), this model exhibits strong
long-horizon reasoning capabilities. It achieves scores of 61.7 on MMMU, 36.8
on MathVision, and 71.3 on MathVista while maintaining the compact 2.8B
activated LLM parameters, setting a new standard for efficient multimodal
thinking models. Code and models are publicly accessible at
https://github.com/MoonshotAI/Kimi-VL.Summary
AI-Generated Summary