ChatPaper.aiChatPaper

Rapport Technique de Kimi-VL

Kimi-VL Technical Report

April 10, 2025
Auteurs: Kimi Team, Angang Du, Bohong Yin, Bowei Xing, Bowen Qu, Bowen Wang, Cheng Chen, Chenlin Zhang, Chenzhuang Du, Chu Wei, Congcong Wang, Dehao Zhang, Dikang Du, Dongliang Wang, Enming Yuan, Enzhe Lu, Fang Li, Flood Sung, Guangda Wei, Guokun Lai, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haoning Wu, Haotian Yao, Haoyu Lu, Heng Wang, Hongcheng Gao, Huabin Zheng, Jiaming Li, Jianlin Su, Jianzhou Wang, Jiaqi Deng, Jiezhong Qiu, Jin Xie, Jinhong Wang, Jingyuan Liu, Junjie Yan, Kun Ouyang, Liang Chen, Lin Sui, Longhui Yu, Mengfan Dong, Mengnan Dong, Nuo Xu, Pengyu Cheng, Qizheng Gu, Runjie Zhou, Shaowei Liu, Sihan Cao, Tao Yu, Tianhui Song, Tongtong Bai, Wei Song, Weiran He, Weixiao Huang, Weixin Xu, Xiaokun Yuan, Xingcheng Yao, Xingzhe Wu, Xinxing Zu, Xinyu Zhou, Xinyuan Wang, Y. Charles, Yan Zhong, Yang Li, Yangyang Hu, Yanru Chen, Yejie Wang, Yibo Liu, Yibo Miao, Yidao Qin, Yimin Chen, Yiping Bao, Yiqin Wang, Yongsheng Kang, Yuanxin Liu, Yulun Du, Yuxin Wu, Yuzhi Wang, Yuzi Yan, Zaida Zhou, Zhaowei Li, Zhejun Jiang, Zheng Zhang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Zijia Zhao, Ziwei Chen
cs.AI

Résumé

Nous présentons Kimi-VL, un modèle vision-langage (VLM) open-source efficace basé sur une architecture Mixture-of-Experts (MoE) qui offre un raisonnement multimodal avancé, une compréhension de contexte étendu et de solides capacités d'agent - tout en activant seulement 2,8 milliards de paramètres dans son décodeur de langage (Kimi-VL-A3B). Kimi-VL démontre des performances remarquables dans des domaines exigeants : en tant que VLM généraliste, il excelle dans les tâches d'agent multi-tours (par exemple, OSWorld), rivalisant avec les modèles phares. De plus, il présente des capacités impressionnantes dans diverses tâches vision-langage complexes, incluant la compréhension d'images et de vidéos de niveau universitaire, la reconnaissance de texte (OCR), le raisonnement mathématique et la compréhension multi-images. Dans les évaluations comparatives, il rivalise efficacement avec des VLMs efficaces de pointe tels que GPT-4o-mini, Qwen2.5-VL-7B et Gemma-3-12B-IT, tout en surpassant GPT-4o dans plusieurs domaines clés. Kimi-VL fait également des progrès dans le traitement de contextes longs et la perception claire. Avec une fenêtre de contexte étendue à 128K, Kimi-VL peut traiter des entrées longues et variées, obtenant des scores impressionnants de 64,5 sur LongVideoBench et 35,1 sur MMLongBench-Doc. Son encodeur visuel en résolution native, MoonViT, lui permet de voir et de comprendre des entrées visuelles en ultra-haute résolution, atteignant 83,2 sur InfoVQA et 34,5 sur ScreenSpot-Pro, tout en maintenant un coût computationnel réduit pour les tâches courantes. Sur la base de Kimi-VL, nous introduisons une variante avancée de raisonnement long : Kimi-VL-Thinking. Développé grâce à un fine-tuning supervisé (SFT) en chaîne de pensée (CoT) étendue et à l'apprentissage par renforcement (RL), ce modèle présente de solides capacités de raisonnement à long terme. Il obtient des scores de 61,7 sur MMMU, 36,8 sur MathVision et 71,3 sur MathVista tout en conservant les 2,8 milliards de paramètres activés du LLM, établissant une nouvelle référence pour les modèles de pensée multimodale efficaces. Le code et les modèles sont accessibles publiquement à l'adresse https://github.com/MoonshotAI/Kimi-VL.
English
We present Kimi-VL, an efficient open-source Mixture-of-Experts (MoE) vision-language model (VLM) that offers advanced multimodal reasoning, long-context understanding, and strong agent capabilities - all while activating only 2.8B parameters in its language decoder (Kimi-VL-A3B). Kimi-VL demonstrates strong performance across challenging domains: as a general-purpose VLM, Kimi-VL excels in multi-turn agent tasks (e.g., OSWorld), matching flagship models. Furthermore, it exhibits remarkable capabilities across diverse challenging vision language tasks, including college-level image and video comprehension, OCR, mathematical reasoning, and multi-image understanding. In comparative evaluations, it effectively competes with cutting-edge efficient VLMs such as GPT-4o-mini, Qwen2.5-VL-7B, and Gemma-3-12B-IT, while surpassing GPT-4o in several key domains. Kimi-VL also advances in processing long contexts and perceiving clearly. With a 128K extended context window, Kimi-VL can process diverse long inputs, achieving impressive scores of 64.5 on LongVideoBench and 35.1 on MMLongBench-Doc. Its native-resolution vision encoder, MoonViT, further allows it to see and understand ultra-high-resolution visual inputs, achieving 83.2 on InfoVQA and 34.5 on ScreenSpot-Pro, while maintaining lower computational cost for common tasks. Building upon Kimi-VL, we introduce an advanced long-thinking variant: Kimi-VL-Thinking. Developed through long chain-of-thought (CoT) supervised fine-tuning (SFT) and reinforcement learning (RL), this model exhibits strong long-horizon reasoning capabilities. It achieves scores of 61.7 on MMMU, 36.8 on MathVision, and 71.3 on MathVista while maintaining the compact 2.8B activated LLM parameters, setting a new standard for efficient multimodal thinking models. Code and models are publicly accessible at https://github.com/MoonshotAI/Kimi-VL.

Summary

AI-Generated Summary

PDF1222April 11, 2025