Kimi-VL Technisch RapportKimi-VL Technical Report
We presenteren Kimi-VL, een efficiënt open-source Mixture-of-Experts (MoE) vision-language model (VLM) dat geavanceerde multimodale redeneervaardigheden, lang-contextbegrip en sterke agentmogelijkheden biedt - terwijl slechts 2,8B parameters in de taaldecoder worden geactiveerd (Kimi-VL-A3B). Kimi-VL toont sterke prestaties in uitdagende domeinen: als een algemeen VLM blinkt Kimi-VL uit in multi-turn agenttaken (bijv. OSWorld), waarbij het de vlaggenschipmodellen evenaart. Bovendien vertoont het opmerkelijke capaciteiten in diverse uitdagende vision-language taken, waaronder begrip van universiteitsniveau voor afbeeldingen en video's, OCR, wiskundig redeneren en multi-image begrip. In vergelijkende evaluaties concurreert het effectief met state-of-the-art efficiënte VLMs zoals GPT-4o-mini, Qwen2.5-VL-7B en Gemma-3-12B-IT, terwijl het GPT-4o in verschillende belangrijke domeinen overtreft. Kimi-VL maakt ook vooruitgang in het verwerken van lange contexten en het helder waarnemen. Met een uitgebreid contextvenster van 128K kan Kimi-VL diverse lange invoeren verwerken, waarbij het indrukwekkende scores behaalt van 64,5 op LongVideoBench en 35,1 op MMLongBench-Doc. De native-resolutie vision encoder, MoonViT, stelt het model in staat om ultra-hoge-resolutie visuele invoeren te zien en te begrijpen, waarbij het 83,2 op InfoVQA en 34,5 op ScreenSpot-Pro behaalt, terwijl het de rekenkosten voor veelvoorkomende taken laag houdt. Gebaseerd op Kimi-VL introduceren we een geavanceerde lang-denken variant: Kimi-VL-Thinking. Dit model, ontwikkeld door middel van lange chain-of-thought (CoT) supervised fine-tuning (SFT) en reinforcement learning (RL), vertoont sterke langetermijnredeneervaardigheden. Het behaalt scores van 61,7 op MMMU, 36,8 op MathVision en 71,3 op MathVista, terwijl het de compacte 2,8B geactiveerde LLM-parameters behoudt, waarmee het een nieuwe standaard zet voor efficiënte multimodale denkmodellen. Code en modellen zijn publiek toegankelijk op https://github.com/MoonshotAI/Kimi-VL.