Технический отчет Kwai Keye-VL

Аннотация

Хотя мультимодальные большие языковые модели (MLLMs) демонстрируют впечатляющие способности в работе со статичными изображениями, они часто оказываются недостаточно эффективными в понимании динамичных, насыщенных информацией коротких видеороликов, которые являются доминирующим форматом в современном цифровом ландшафте. Чтобы устранить этот разрыв, мы представляем Kwai Keye-VL — мультимодальную базовую модель с 8 миллиардами параметров, разработанную для достижения передовых результатов в понимании коротких видеороликов при сохранении надежных универсальных способностей в области обработки визуальной и текстовой информации. Разработка Keye-VL основывается на двух ключевых принципах: масштабном высококачественном наборе данных, превышающем 600 миллиардов токенов с акцентом на видео, и инновационной методике обучения. Эта методика включает четырехэтапный процесс предварительного обучения для обеспечения четкого согласования визуальной и текстовой информации, за которым следует тщательный двухэтапный процесс пост-обучения. Первый этап пост-обучения улучшает базовые способности, такие как выполнение инструкций, тогда как второй этап сосредоточен на стимулировании продвинутого мышления. На этом втором этапе ключевым нововведением является наша пятирежимная смесь данных «холодного старта», включающая режимы «мышление», «без мышления», «автоматическое мышление», «мышление с изображением» и высококачественные видеоданные. Эта смесь учит модель решать, когда и как применять логическое мышление. Последующие шаги обучения с подкреплением (RL) и согласования дополнительно улучшают эти способности к рассуждению и исправляют аномальное поведение модели, такое как повторяющиеся выводы. Для проверки нашего подхода мы проводим обширные оценки, которые показывают, что Keye-VL достигает наилучших результатов на публичных видеобенчмарках и остается высококонкурентоспособной в задачах, основанных на изображениях (Рисунок 1). Кроме того, мы разрабатываем и публикуем KC-MMBench — новый бенчмарк, адаптированный для реальных сценариев с короткими видеороликами, где Keye-VL демонстрирует значительное преимущество.

English

While Multimodal Large Language Models (MLLMs) demonstrate remarkable capabilities on static images, they often fall short in comprehending dynamic, information-dense short-form videos, a dominant medium in today's digital landscape. To bridge this gap, we introduce Kwai Keye-VL, an 8-billion-parameter multimodal foundation model engineered for leading-edge performance in short-video understanding while maintaining robust general-purpose vision-language abilities. The development of Keye-VL rests on two core pillars: a massive, high-quality dataset exceeding 600 billion tokens with a strong emphasis on video, and an innovative training recipe. This recipe features a four-stage pre-training process for solid vision-language alignment, followed by a meticulous two-phase post-training process. The first post-training stage enhances foundational capabilities like instruction following, while the second phase focuses on stimulating advanced reasoning. In this second phase, a key innovation is our five-mode ``cold-start'' data mixture, which includes ``thinking'', ``non-thinking'', ``auto-think'', ``think with image'', and high-quality video data. This mixture teaches the model to decide when and how to reason. Subsequent reinforcement learning (RL) and alignment steps further enhance these reasoning capabilities and correct abnormal model behaviors, such as repetitive outputs. To validate our approach, we conduct extensive evaluations, showing that Keye-VL achieves state-of-the-art results on public video benchmarks and remains highly competitive on general image-based tasks (Figure 1). Furthermore, we develop and release the KC-MMBench, a new benchmark tailored for real-world short-video scenarios, where Keye-VL shows a significant advantage.