Технический отчет Kimi-VLKimi-VL Technical Report
Мы представляем Kimi-VL, эффективную модель с открытым исходным кодом, основанную на архитектуре Mixture-of-Experts (MoE) для обработки визуально-языковых данных (VLM). Эта модель предлагает продвинутые возможности мультимодального мышления, понимания длинных контекстов и мощные агентские функции, активируя при этом всего 2,8 миллиарда параметров в языковом декодере (Kimi-VL-A3B). Kimi-VL демонстрирует высокую производительность в сложных областях: как универсальная VLM, она превосходно справляется с многошаговыми агентскими задачами (например, OSWorld), сопоставимыми с флагманскими моделями. Кроме того, она показывает выдающиеся способности в разнообразных сложных задачах, связанных с обработкой визуально-языковых данных, включая понимание изображений и видео на уровне колледжа, OCR, математическое мышление и анализ множественных изображений. В сравнительных оценках Kimi-VL эффективно конкурирует с передовыми эффективными VLMs, такими как GPT-4o-mini, Qwen2.5-VL-7B и Gemma-3-12B-IT, превосходя GPT-4o в нескольких ключевых областях. Kimi-VL также продвигается в обработке длинных контекстов и четком восприятии. С расширенным контекстным окном в 128K, модель способна обрабатывать разнообразные длинные входные данные, достигая впечатляющих показателей 64,5 на LongVideoBench и 35,1 на MMLongBench-Doc. Ее встроенный кодировщик изображений с нативным разрешением, MoonViT, позволяет модели видеть и понимать сверхвысококачественные визуальные данные, достигая 83,2 на InfoVQA и 34,5 на ScreenSpot-Pro, при этом сохраняя низкие вычислительные затраты для стандартных задач. На основе Kimi-VL мы представляем усовершенствованную версию для длительного мышления: Kimi-VL-Thinking. Эта модель, разработанная с использованием длинных цепочек рассуждений (CoT) под контролируемой тонкой настройкой (SFT) и обучения с подкреплением (RL), демонстрирует мощные способности к долгосрочному мышлению. Она достигает показателей 61,7 на MMMU, 36,8 на MathVision и 71,3 на MathVista, сохраняя компактные 2,8 миллиарда активированных параметров LLM, устанавливая новый стандарт для эффективных мультимодальных моделей мышления. Код и модели доступны публично по адресу https://github.com/MoonshotAI/Kimi-VL.