Informe Técnico de Kimi-VLKimi-VL Technical Report
Presentamos Kimi-VL, un eficiente modelo de lenguaje visual (VLM) de Mezcla de Expertos (MoE) de código abierto que ofrece razonamiento multimodal avanzado, comprensión de contexto extenso y sólidas capacidades de agente, todo ello activando solo 2.8 mil millones de parámetros en su decodificador de lenguaje (Kimi-VL-A3B). Kimi-VL demuestra un rendimiento sólido en dominios desafiantes: como un VLM de propósito general, Kimi-VL sobresale en tareas de agente de múltiples turnos (por ejemplo, OSWorld), igualando a modelos líderes. Además, exhibe capacidades notables en diversas tareas desafiantes de lenguaje visual, incluyendo comprensión de imágenes y videos a nivel universitario, OCR, razonamiento matemático y comprensión de múltiples imágenes. En evaluaciones comparativas, compite eficazmente con VLMs eficientes de vanguardia como GPT-4o-mini, Qwen2.5-VL-7B y Gemma-3-12B-IT, superando a GPT-4o en varios dominios clave. Kimi-VL también avanza en el procesamiento de contextos largos y la percepción clara. Con una ventana de contexto extendida de 128K, Kimi-VL puede procesar diversas entradas largas, logrando puntuaciones impresionantes de 64.5 en LongVideoBench y 35.1 en MMLongBench-Doc. Su codificador visual de resolución nativa, MoonViT, le permite ver y comprender entradas visuales de ultra alta resolución, alcanzando 83.2 en InfoVQA y 34.5 en ScreenSpot-Pro, mientras mantiene un menor costo computacional para tareas comunes. Basándonos en Kimi-VL, introducimos una variante avanzada de pensamiento largo: Kimi-VL-Thinking. Desarrollado mediante ajuste fino supervisado (SFT) de cadena de pensamiento largo (CoT) y aprendizaje por refuerzo (RL), este modelo exhibe fuertes capacidades de razonamiento a largo plazo. Logra puntuaciones de 61.7 en MMMU, 36.8 en MathVision y 71.3 en MathVista, manteniendo los compactos 2.8 mil millones de parámetros activados del LLM, estableciendo un nuevo estándar para modelos eficientes de pensamiento multimodal. El código y los modelos son accesibles públicamente en https://github.com/MoonshotAI/Kimi-VL.