Rapporto Tecnico Kimi-VLKimi-VL Technical Report
Presentiamo Kimi-VL, un efficiente modello visione-linguaggio (VLM) open-source basato su Mixture-of-Experts (MoE) che offre avanzate capacità di ragionamento multimodale, comprensione di contesti lunghi e solide abilità di agente, attivando solo 2,8 miliardi di parametri nel suo decodificatore linguistico (Kimi-VL-A3B). Kimi-VL dimostra prestazioni eccellenti in domini impegnativi: come VLM generico, eccelle in compiti di agente multi-turn (ad esempio, OSWorld), competendo con modelli di punta. Inoltre, mostra capacità notevoli in una vasta gamma di compiti visione-linguaggio complessi, tra cui comprensione di immagini e video a livello universitario, OCR, ragionamento matematico e comprensione multi-immagine. In valutazioni comparative, compete efficacemente con VLMs efficienti all'avanguardia come GPT-4o-mini, Qwen2.5-VL-7B e Gemma-3-12B-IT, superando GPT-4o in diversi domini chiave. Kimi-VL avanza anche nell'elaborazione di contesti lunghi e nella percezione chiara. Con una finestra di contesto estesa a 128K, Kimi-VL può elaborare input lunghi e diversificati, ottenendo punteggi impressionanti di 64,5 su LongVideoBench e 35,1 su MMLongBench-Doc. Il suo encoder visivo a risoluzione nativa, MoonViT, gli consente inoltre di vedere e comprendere input visivi ad altissima risoluzione, raggiungendo 83,2 su InfoVQA e 34,5 su ScreenSpot-Pro, mantenendo al contempo un costo computazionale inferiore per compiti comuni. Basandoci su Kimi-VL, introduciamo una variante avanzata per il ragionamento lungo: Kimi-VL-Thinking. Sviluppato attraverso un fine-tuning supervisionato (SFT) a catena di pensiero (CoT) lungo e apprendimento per rinforzo (RL), questo modello mostra forti capacità di ragionamento a lungo termine. Ottiene punteggi di 61,7 su MMMU, 36,8 su MathVision e 71,3 su MathVista, mantenendo i compatti 2,8 miliardi di parametri LLM attivati, stabilendo un nuovo standard per i modelli di pensiero multimodale efficienti. Codice e modelli sono accessibili pubblicamente all'indirizzo https://github.com/MoonshotAI/Kimi-VL.