Relatório Técnico Kimi-VLKimi-VL Technical Report
Apresentamos o Kimi-VL, um eficiente modelo de linguagem visual (VLM) de Mistura de Especialistas (MoE) de código aberto que oferece raciocínio multimodal avançado, compreensão de contexto longo e capacidades robustas de agente - tudo isso ativando apenas 2,8 bilhões de parâmetros em seu decodificador de linguagem (Kimi-VL-A3B). O Kimi-VL demonstra um desempenho forte em domínios desafiadores: como um VLM de propósito geral, ele se destaca em tarefas de agente de múltiplas interações (por exemplo, OSWorld), equiparando-se a modelos líderes. Além disso, ele exibe capacidades notáveis em diversas tarefas desafiadoras de linguagem visual, incluindo compreensão de imagens e vídeos de nível universitário, OCR, raciocínio matemático e compreensão de múltiplas imagens. Em avaliações comparativas, ele compete efetivamente com VLMs eficientes de ponta, como GPT-4o-mini, Qwen2.5-VL-7B e Gemma-3-12B-IT, enquanto supera o GPT-4o em vários domínios-chave. O Kimi-VL também avança no processamento de contextos longos e na percepção clara. Com uma janela de contexto estendida de 128K, o Kimi-VL pode processar diversas entradas longas, alcançando pontuações impressionantes de 64,5 no LongVideoBench e 35,1 no MMLongBench-Doc. Seu codificador visual de resolução nativa, MoonViT, permite ainda que ele veja e compreenda entradas visuais de ultra-alta resolução, alcançando 83,2 no InfoVQA e 34,5 no ScreenSpot-Pro, enquanto mantém um custo computacional mais baixo para tarefas comuns. Baseado no Kimi-VL, introduzimos uma variante avançada de pensamento longo: o Kimi-VL-Thinking. Desenvolvido por meio de ajuste fino supervisionado (SFT) de cadeia de pensamento (CoT) longo e aprendizado por reforço (RL), este modelo exibe fortes capacidades de raciocínio de longo horizonte. Ele alcança pontuações de 61,7 no MMMU, 36,8 no MathVision e 71,3 no MathVista, mantendo os compactos 2,8 bilhões de parâmetros ativados do LLM, estabelecendo um novo padrão para modelos eficientes de pensamento multimodal. Código e modelos estão publicamente acessíveis em https://github.com/MoonshotAI/Kimi-VL.