Kimi-VL 技術報告Kimi-VL Technical Report
我們推出Kimi-VL,這是一款高效的開源專家混合(MoE)視覺語言模型(VLM),具備先進的多模態推理能力、長上下文理解能力以及強大的代理功能——其語言解碼器僅激活2.8B參數(Kimi-VL-A3B)。Kimi-VL在多個挑戰性領域展現出卓越性能:作為一款通用VLM,它在多輪代理任務(如OSWorld)中表現出色,與旗艦模型相媲美。此外,它在多樣化的視覺語言任務中展現出顯著能力,包括大學級別的圖像和視頻理解、OCR、數學推理以及多圖像理解。在比較評估中,它有效地與GPT-4o-mini、Qwen2.5-VL-7B和Gemma-3-12B-IT等尖端高效VLM競爭,並在多個關鍵領域超越GPT-4o。Kimi-VL在處理長上下文和清晰感知方面也取得了進展。憑藉128K的擴展上下文窗口,Kimi-VL能夠處理多樣的長輸入,在LongVideoBench上獲得64.5分,在MMLongBench-Doc上獲得35.1分。其原生分辨率的視覺編碼器MoonViT進一步使其能夠看到並理解超高分辨率的視覺輸入,在InfoVQA上獲得83.2分,在ScreenSpot-Pro上獲得34.5分,同時在常見任務中保持較低的計算成本。基於Kimi-VL,我們推出了一款先進的長思維變體:Kimi-VL-Thinking。通過長鏈思維(CoT)監督微調(SFT)和強化學習(RL)開發,該模型展現出強大的長視野推理能力。它在MMMU上獲得61.7分,在MathVision上獲得36.8分,在MathVista上獲得71.3分,同時保持緊湊的2.8B激活LLM參數,為高效多模態思維模型設定了新標準。代碼和模型可在https://github.com/MoonshotAI/Kimi-VL公開訪問。