Rapporto Tecnico di Kwai Keye-VL
Kwai Keye-VL Technical Report
July 2, 2025
Autori: Kwai Keye Team, Biao Yang, Bin Wen, Changyi Liu, Chenglong Chu, Chengru Song, Chongling Rao, Chuan Yi, Da Li, Dunju Zang, Fan Yang, Guorui Zhou, Hao Peng, Haojie Ding, Jiaming Huang, Jiangxia Cao, Jiankang Chen, Jingyun Hua, Jin Ouyang, Kaibing Chen, Kaiyu Jiang, Kaiyu Tang, Kun Gai, Shengnan Zhang, Siyang Mao, Sui Huang, Tianke Zhang, Tingting Gao, Wei Chen, Wei Yuan, Xiangyu Wu, Xiao Hu, Xingyu Lu, Yang Zhou, Yi-Fan Zhang, Yiping Yang, Yulong Chen, Zhenhua Wu, Zhenyu Li, Zhixin Ling, Ziming Li, Dehua Ma, Di Xu, Haixuan Gao, Hang Li, Jiawei Guo, Jing Wang, Lejian Ren, Muhao Wei, Qianqian Wang, Qigen Hu, Shiyao Wang, Tao Yu, Xinchen Luo, Yan Li, Yiming Liang, Yuhang Hu, Zeyi Lu, Zhuoran Yang, Zixing Zhang
cs.AI
Abstract
Sebbene i Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) dimostrino capacità notevoli sulle immagini statiche, spesso non riescono a comprendere video brevi dinamici e ricchi di informazioni, un mezzo dominante nel panorama digitale odierno. Per colmare questa lacuna, introduciamo Kwai Keye-VL, un modello multimodale di base da 8 miliardi di parametri progettato per ottenere prestazioni all'avanguardia nella comprensione dei video brevi, mantenendo al contempo solide capacità generali di visione e linguaggio. Lo sviluppo di Keye-VL si basa su due pilastri fondamentali: un dataset massiccio e di alta qualità che supera i 600 miliardi di token con una forte enfasi sui video, e una ricetta di addestramento innovativa. Questa ricetta prevede un processo di pre-addestramento in quattro fasi per un solido allineamento visione-linguaggio, seguito da un meticoloso processo di post-addestramento in due fasi. La prima fase di post-addestramento potenzia capacità fondamentali come il seguire istruzioni, mentre la seconda fase si concentra sulla stimolazione del ragionamento avanzato. In questa seconda fase, un'innovazione chiave è la nostra miscela di dati "cold-start" a cinque modalità, che include "pensiero", "non-pensiero", "auto-pensiero", "pensiero con immagine" e dati video di alta qualità. Questa miscela insegna al modello a decidere quando e come ragionare. Successivi passaggi di apprendimento per rinforzo (RL) e allineamento migliorano ulteriormente queste capacità di ragionamento e correggono comportamenti anomali del modello, come output ripetitivi. Per validare il nostro approccio, conduciamo valutazioni estensive, dimostrando che Keye-VL raggiunge risultati all'avanguardia sui benchmark video pubblici e rimane altamente competitivo su compiti generali basati su immagini (Figura 1). Inoltre, sviluppiamo e rilasciamo il KC-MMBench, un nuovo benchmark progettato per scenari reali di video brevi, dove Keye-VL mostra un vantaggio significativo.
English
While Multimodal Large Language Models (MLLMs) demonstrate remarkable
capabilities on static images, they often fall short in comprehending dynamic,
information-dense short-form videos, a dominant medium in today's digital
landscape. To bridge this gap, we introduce Kwai Keye-VL, an
8-billion-parameter multimodal foundation model engineered for leading-edge
performance in short-video understanding while maintaining robust
general-purpose vision-language abilities. The development of Keye-VL rests on
two core pillars: a massive, high-quality dataset exceeding 600 billion tokens
with a strong emphasis on video, and an innovative training recipe. This recipe
features a four-stage pre-training process for solid vision-language alignment,
followed by a meticulous two-phase post-training process. The first
post-training stage enhances foundational capabilities like instruction
following, while the second phase focuses on stimulating advanced reasoning. In
this second phase, a key innovation is our five-mode ``cold-start'' data
mixture, which includes ``thinking'', ``non-thinking'', ``auto-think'', ``think
with image'', and high-quality video data. This mixture teaches the model to
decide when and how to reason. Subsequent reinforcement learning (RL) and
alignment steps further enhance these reasoning capabilities and correct
abnormal model behaviors, such as repetitive outputs. To validate our approach,
we conduct extensive evaluations, showing that Keye-VL achieves
state-of-the-art results on public video benchmarks and remains highly
competitive on general image-based tasks (Figure 1). Furthermore, we develop
and release the KC-MMBench, a new benchmark tailored for real-world
short-video scenarios, where Keye-VL shows a significant advantage.