Rapport technique du Kwai Keye-VL 1.5
Kwai Keye-VL 1.5 Technical Report
September 1, 2025
papers.authors: Biao Yang, Bin Wen, Boyang Ding, Changyi Liu, Chenglong Chu, Chengru Song, Chongling Rao, Chuan Yi, Da Li, Dunju Zang, Fan Yang, Guorui Zhou, Guowang Zhang, Han Shen, Hao Peng, Haojie Ding, Hao Wang, Hengrui Ju, Jiaming Huang, Jiangxia Cao, Jiankang Chen, Jingyun Hua, Kaibing Chen, Kaiyu Jiang, Kaiyu Tang, Kun Gai, Muhao Wei, Qiang Wang, Ruitao Wang, Sen Na, Shengnan Zhang, Siyang Mao, Sui Huang, Tianke Zhang, Tingting Gao, Wei Chen, Wei Yuan, Xiangyu Wu, Xiao Hu, Xingyu Lu, Yi-Fan Zhang, Yiping Yang, Yulong Chen, Zeyi Lu, Zhenhua Wu, Zhixin Ling, Zhuoran Yang, Ziming Li, Di Xu, Haixuan Gao, Hang Li, Jing Wang, Lejian Ren, Qigen Hu, Qianqian Wang, Shiyao Wang, Xinchen Luo, Yan Li, Yuhang Hu, Zixing Zhang
cs.AI
papers.abstract
Ces dernières années, le développement des modèles de langage de grande taille (LLMs) a considérablement progressé, étendant leurs capacités à des tâches multimodales grâce aux modèles de langage multimodaux de grande taille (MLLMs). Cependant, la compréhension vidéo reste un domaine complexe en raison de la nature dynamique et riche en informations des vidéos. Les modèles existants peinent à concilier la résolution spatiale et la couverture temporelle lors du traitement du contenu vidéo. Nous présentons Keye-VL-1.5, qui relève les défis fondamentaux de la compréhension vidéo grâce à trois innovations clés. Premièrement, nous introduisons une nouvelle stratégie d'encodage vidéo Slow-Fast qui alloue dynamiquement les ressources de calcul en fonction de la similarité inter-images, traitant les images clés avec des changements visuels significatifs à une résolution plus élevée (voie Slow) tout en gérant les images relativement statiques avec une couverture temporelle accrue à une résolution plus faible (voie Fast). Deuxièmement, nous mettons en œuvre une méthodologie de pré-entraînement progressive en quatre étapes qui étend systématiquement la longueur de contexte du modèle de 8K à 128K tokens, permettant ainsi le traitement de vidéos plus longues et de contenus visuels plus complexes. Troisièmement, nous développons un pipeline complet de post-entraînement axé sur l'amélioration du raisonnement et l'alignement sur les préférences humaines, intégrant un processus de construction de données en chaîne de pensée en 5 étapes, un apprentissage par renforcement itératif basé sur GSPO avec des indices progressifs pour les cas difficiles, et un entraînement d'alignement. Grâce à une évaluation approfondie sur des benchmarks publics et une évaluation humaine interne rigoureuse, Keye-VL-1.5 démontre des améliorations significatives par rapport aux modèles existants, excellant particulièrement dans les tâches de compréhension vidéo tout en maintenant des performances compétitives sur les benchmarks multimodaux généraux.
English
In recent years, the development of Large Language Models (LLMs) has
significantly advanced, extending their capabilities to multimodal tasks
through Multimodal Large Language Models (MLLMs). However, video understanding
remains a challenging area due to the dynamic and information-dense nature of
videos. Existing models struggle with the trade-off between spatial resolution
and temporal coverage when processing video content. We present Keye-VL-1.5,
which addresses fundamental challenges in video comprehension through three key
innovations. First, we introduce a novel Slow-Fast video encoding strategy that
dynamically allocates computational resources based on inter-frame similarity,
processing key frames with significant visual changes at higher resolution
(Slow pathway) while handling relatively static frames with increased temporal
coverage at lower resolution (Fast pathway). Second, we implement a progressive
four-stage pre-training methodology that systematically extends the model's
context length from 8K to 128K tokens, enabling processing of longer videos and
more complex visual content. Third, we develop a comprehensive post-training
pipeline focusing on reasoning enhancement and human preference alignment,
incorporating a 5-step chain-of-thought data construction process, iterative
GSPO-based reinforcement learning with progressive prompt hinting for difficult
cases, and alignment training. Through extensive evaluation on public
benchmarks and rigorous internal human assessment, Keye-VL-1.5 demonstrates
significant improvements over existing models, particularly excelling in video
understanding tasks while maintaining competitive performance on general
multimodal benchmarks.