Kimi-VL 技术报告Kimi-VL Technical Report
我们推出Kimi-VL,这是一款高效的开源专家混合(MoE)视觉语言模型(VLM),具备先进的多模态推理、长上下文理解及强大的代理能力,而其语言解码器仅激活2.8B参数(Kimi-VL-A3B)。Kimi-VL在多个挑战性领域展现出卓越性能:作为通用VLM,它在多轮代理任务(如OSWorld)中表现优异,与旗舰模型相媲美。此外,该模型在多样化的视觉语言任务中展现了非凡能力,包括大学级别的图像与视频理解、OCR、数学推理及多图像理解。在对比评估中,它有效竞争于前沿高效VLM如GPT-4o-mini、Qwen2.5-VL-7B和Gemma-3-12B-IT,并在多个关键领域超越GPT-4o。Kimi-VL在长上下文处理与清晰感知方面也取得进展,凭借128K扩展上下文窗口,能够处理多样化的长输入,在LongVideoBench和MMLongBench-Doc上分别获得64.5和35.1的优异成绩。其原生分辨率视觉编码器MoonViT,使其能够观察并理解超高分辨率视觉输入,在InfoVQA和ScreenSpot-Pro上分别达到83.2和34.5,同时保持较低的计算成本。基于Kimi-VL,我们进一步推出了高级长思维变体:Kimi-VL-Thinking。通过长链思维(CoT)监督微调(SFT)和强化学习(RL)开发,该模型展现出强大的长程推理能力,在MMMU、MathVision和MathVista上分别获得61.7、36.8和71.3的分数,同时维持紧凑的2.8B激活LLM参数,为高效多模态思维模型树立了新标杆。代码与模型已公开于https://github.com/MoonshotAI/Kimi-VL。