Rapport Technique de Kimi-VLKimi-VL Technical Report
Nous présentons Kimi-VL, un modèle vision-langage (VLM) open-source efficace basé sur une architecture Mixture-of-Experts (MoE) qui offre un raisonnement multimodal avancé, une compréhension de contexte étendu et de solides capacités d'agent - tout en activant seulement 2,8 milliards de paramètres dans son décodeur de langage (Kimi-VL-A3B). Kimi-VL démontre des performances remarquables dans des domaines exigeants : en tant que VLM généraliste, il excelle dans les tâches d'agent multi-tours (par exemple, OSWorld), rivalisant avec les modèles phares. De plus, il présente des capacités impressionnantes dans diverses tâches vision-langage complexes, incluant la compréhension d'images et de vidéos de niveau universitaire, la reconnaissance de texte (OCR), le raisonnement mathématique et la compréhension multi-images. Dans les évaluations comparatives, il rivalise efficacement avec des VLMs efficaces de pointe tels que GPT-4o-mini, Qwen2.5-VL-7B et Gemma-3-12B-IT, tout en surpassant GPT-4o dans plusieurs domaines clés. Kimi-VL fait également des progrès dans le traitement de contextes longs et la perception claire. Avec une fenêtre de contexte étendue à 128K, Kimi-VL peut traiter des entrées longues et variées, obtenant des scores impressionnants de 64,5 sur LongVideoBench et 35,1 sur MMLongBench-Doc. Son encodeur visuel en résolution native, MoonViT, lui permet de voir et de comprendre des entrées visuelles en ultra-haute résolution, atteignant 83,2 sur InfoVQA et 34,5 sur ScreenSpot-Pro, tout en maintenant un coût computationnel réduit pour les tâches courantes. Sur la base de Kimi-VL, nous introduisons une variante avancée de raisonnement long : Kimi-VL-Thinking. Développé grâce à un fine-tuning supervisé (SFT) en chaîne de pensée (CoT) étendue et à l'apprentissage par renforcement (RL), ce modèle présente de solides capacités de raisonnement à long terme. Il obtient des scores de 61,7 sur MMMU, 36,8 sur MathVision et 71,3 sur MathVista tout en conservant les 2,8 milliards de paramètres activés du LLM, établissant une nouvelle référence pour les modèles de pensée multimodale efficaces. Le code et les modèles sont accessibles publiquement à l'adresse https://github.com/MoonshotAI/Kimi-VL.