Kwai Keye-VL 1.5 Technisch Rapport
Kwai Keye-VL 1.5 Technical Report
September 1, 2025
Auteurs: Biao Yang, Bin Wen, Boyang Ding, Changyi Liu, Chenglong Chu, Chengru Song, Chongling Rao, Chuan Yi, Da Li, Dunju Zang, Fan Yang, Guorui Zhou, Guowang Zhang, Han Shen, Hao Peng, Haojie Ding, Hao Wang, Hengrui Ju, Jiaming Huang, Jiangxia Cao, Jiankang Chen, Jingyun Hua, Kaibing Chen, Kaiyu Jiang, Kaiyu Tang, Kun Gai, Muhao Wei, Qiang Wang, Ruitao Wang, Sen Na, Shengnan Zhang, Siyang Mao, Sui Huang, Tianke Zhang, Tingting Gao, Wei Chen, Wei Yuan, Xiangyu Wu, Xiao Hu, Xingyu Lu, Yi-Fan Zhang, Yiping Yang, Yulong Chen, Zeyi Lu, Zhenhua Wu, Zhixin Ling, Zhuoran Yang, Ziming Li, Di Xu, Haixuan Gao, Hang Li, Jing Wang, Lejian Ren, Qigen Hu, Qianqian Wang, Shiyao Wang, Xinchen Luo, Yan Li, Yuhang Hu, Zixing Zhang
cs.AI
Samenvatting
In de afgelopen jaren heeft de ontwikkeling van Large Language Models (LLMs) aanzienlijke vooruitgang geboekt, waarbij hun mogelijkheden zijn uitgebreid naar multimodale taken via Multimodal Large Language Models (MLLMs). Echter blijft videobegrip een uitdagend gebied vanwege de dynamische en informatie-intensieve aard van video's. Bestaande modellen worstelen met de afweging tussen ruimtelijke resolutie en temporele dekking bij het verwerken van videocontent. Wij presenteren Keye-VL-1.5, dat fundamentele uitdagingen in videobegrip aanpakt door drie belangrijke innovaties. Ten eerste introduceren we een nieuwe Slow-Fast video-encoderingsstrategie die computationele bronnen dynamisch toewijst op basis van inter-frame gelijkenis, waarbij sleutelframes met significante visuele veranderingen worden verwerkt met een hogere resolutie (Slow pathway) terwijl relatief statische frames worden behandeld met een verhoogde temporele dekking bij lagere resolutie (Fast pathway). Ten tweede implementeren we een progressieve vierfasen pre-trainingsmethodologie die de contextlengte van het model systematisch uitbreidt van 8K naar 128K tokens, waardoor het verwerken van langere video's en complexere visuele content mogelijk wordt. Ten derde ontwikkelen we een uitgebreide post-trainingspipeline die zich richt op het verbeteren van redenering en afstemming op menselijke voorkeuren, waarbij een 5-staps chain-of-thought dataconstructieproces, iteratieve GSPO-gebaseerde reinforcement learning met progressieve prompt hints voor moeilijke gevallen, en alignment training worden geïntegreerd. Door uitgebreide evaluatie op publieke benchmarks en rigoureuze interne menselijke beoordeling, toont Keye-VL-1.5 significante verbeteringen ten opzichte van bestaande modellen, met name uitblinkend in videobegriptaken terwijl het competitieve prestaties behoudt op algemene multimodale benchmarks.
English
In recent years, the development of Large Language Models (LLMs) has
significantly advanced, extending their capabilities to multimodal tasks
through Multimodal Large Language Models (MLLMs). However, video understanding
remains a challenging area due to the dynamic and information-dense nature of
videos. Existing models struggle with the trade-off between spatial resolution
and temporal coverage when processing video content. We present Keye-VL-1.5,
which addresses fundamental challenges in video comprehension through three key
innovations. First, we introduce a novel Slow-Fast video encoding strategy that
dynamically allocates computational resources based on inter-frame similarity,
processing key frames with significant visual changes at higher resolution
(Slow pathway) while handling relatively static frames with increased temporal
coverage at lower resolution (Fast pathway). Second, we implement a progressive
four-stage pre-training methodology that systematically extends the model's
context length from 8K to 128K tokens, enabling processing of longer videos and
more complex visual content. Third, we develop a comprehensive post-training
pipeline focusing on reasoning enhancement and human preference alignment,
incorporating a 5-step chain-of-thought data construction process, iterative
GSPO-based reinforcement learning with progressive prompt hinting for difficult
cases, and alignment training. Through extensive evaluation on public
benchmarks and rigorous internal human assessment, Keye-VL-1.5 demonstrates
significant improvements over existing models, particularly excelling in video
understanding tasks while maintaining competitive performance on general
multimodal benchmarks.