Kimi-VL Technischer BerichtKimi-VL Technical Report
Wir präsentieren Kimi-VL, ein effizientes Open-Source-Mixture-of-Experts (MoE)-Vision-Sprache-Modell (VLM), das fortschrittliches multimodales Denken, Langzeitkontextverständnis und starke Agenten-Fähigkeiten bietet – und dabei nur 2,8 Milliarden Parameter in seinem Sprachdecoder aktiviert (Kimi-VL-A3B). Kimi-VL zeigt eine starke Leistung in anspruchsvollen Domänen: Als allgemeines VLM überzeugt es in Multi-Turn-Agenten-Aufgaben (z. B. OSWorld) und hält mit führenden Modellen Schritt. Darüber hinaus weist es bemerkenswerte Fähigkeiten in diversen anspruchsvollen Vision-Sprache-Aufgaben auf, darunter College-Level-Bild- und Videoverständnis, OCR, mathematisches Denken und Multi-Bild-Verständnis. In vergleichenden Bewertungen konkurriert es effektiv mit modernsten effizienten VLMs wie GPT-4o-mini, Qwen2.5-VL-7B und Gemma-3-12B-IT, während es GPT-4o in mehreren Schlüsselbereichen übertrifft. Kimi-VL macht auch Fortschritte bei der Verarbeitung langer Kontexte und der klaren Wahrnehmung. Mit einem erweiterten Kontextfenster von 128K kann Kimi-VL diverse lange Eingaben verarbeiten und erzielt beeindruckende Werte von 64,5 auf LongVideoBench und 35,1 auf MMLongBench-Doc. Sein nativer Auflösungs-Vision-Encoder, MoonViT, ermöglicht es ihm, ultrahochauflösende visuelle Eingaben zu sehen und zu verstehen, und erreicht 83,2 auf InfoVQA und 34,5 auf ScreenSpot-Pro, während es gleichzeitig die Rechenkosten für gängige Aufgaben niedrig hält. Aufbauend auf Kimi-VL führen wir eine fortschrittliche Langzeitdenken-Variante ein: Kimi-VL-Thinking. Dieses Modell, entwickelt durch langen Chain-of-Thought (CoT)-supervised Fine-Tuning (SFT) und Reinforcement Learning (RL), zeigt starke Langzeitdenkfähigkeiten. Es erreicht Werte von 61,7 auf MMMU, 36,8 auf MathVision und 71,3 auf MathVista, während es die kompakten 2,8 Milliarden aktivierten LLM-Parameter beibehält, und setzt damit einen neuen Standard für effiziente multimodale Denkmodelle. Code und Modelle sind öffentlich zugänglich unter https://github.com/MoonshotAI/Kimi-VL.