Kimi-VL 技術レポートKimi-VL Technical Report
私たちは、効率的なオープンソースのMixture-of-Experts(MoE)ビジョン言語モデル(VLM)であるKimi-VLを紹介します。このモデルは、高度なマルチモーダル推論、長文脈理解、そして強力なエージェント能力を提供し、言語デコーダではわずか2.8Bのパラメータを活性化します(Kimi-VL-A3B)。Kimi-VLは、挑戦的なドメインで優れたパフォーマンスを発揮します。汎用VLMとして、Kimi-VLはマルチターンエージェントタスク(例:OSWorld)でトップモデルに匹敵する性能を示します。さらに、大学レベルの画像や動画の理解、OCR、数学的推論、複数画像の理解など、多様な困難なビジョン言語タスクで顕著な能力を発揮します。比較評価では、GPT-4o-mini、Qwen2.5-VL-7B、Gemma-3-12B-ITなどの最先端の効率的なVLMと効果的に競い、いくつかの主要なドメインでGPT-4oを上回ります。Kimi-VLは、長文脈の処理と明確な知覚においても進歩しています。128Kの拡張文脈ウィンドウを備えたKimi-VLは、多様な長い入力を処理し、LongVideoBenchで64.5、MMLongBench-Docで35.1の印象的なスコアを達成します。そのネイティブ解像度のビジョンエンコーダーであるMoonViTにより、超高解像度の視覚入力を認識し、理解することが可能で、InfoVQAで83.2、ScreenSpot-Proで34.5のスコアを達成しながら、一般的なタスクでの計算コストを低く抑えています。Kimi-VLを基盤として、高度な長考バリアントであるKimi-VL-Thinkingを導入します。このモデルは、長い連鎖思考(CoT)の教師あり微調整(SFT)と強化学習(RL)を通じて開発され、強力な長期的推論能力を示します。MMMUで61.7、MathVisionで36.8、MathVistaで71.3のスコアを達成し、コンパクトな2.8Bの活性化LLMパラメータを維持しながら、効率的なマルチモーダル思考モデルの新たな基準を設定します。コードとモデルはhttps://github.com/MoonshotAI/Kimi-VLで公開されています。