ChatPaper.aiChatPaper

Kwai Keye-VL 1.5 기술 보고서

Kwai Keye-VL 1.5 Technical Report

September 1, 2025
저자: Biao Yang, Bin Wen, Boyang Ding, Changyi Liu, Chenglong Chu, Chengru Song, Chongling Rao, Chuan Yi, Da Li, Dunju Zang, Fan Yang, Guorui Zhou, Guowang Zhang, Han Shen, Hao Peng, Haojie Ding, Hao Wang, Hengrui Ju, Jiaming Huang, Jiangxia Cao, Jiankang Chen, Jingyun Hua, Kaibing Chen, Kaiyu Jiang, Kaiyu Tang, Kun Gai, Muhao Wei, Qiang Wang, Ruitao Wang, Sen Na, Shengnan Zhang, Siyang Mao, Sui Huang, Tianke Zhang, Tingting Gao, Wei Chen, Wei Yuan, Xiangyu Wu, Xiao Hu, Xingyu Lu, Yi-Fan Zhang, Yiping Yang, Yulong Chen, Zeyi Lu, Zhenhua Wu, Zhixin Ling, Zhuoran Yang, Ziming Li, Di Xu, Haixuan Gao, Hang Li, Jing Wang, Lejian Ren, Qigen Hu, Qianqian Wang, Shiyao Wang, Xinchen Luo, Yan Li, Yuhang Hu, Zixing Zhang
cs.AI

초록

최근 대규모 언어 모델(Large Language Models, LLMs)의 발전이 크게 진전되면서, 멀티모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)을 통해 다양한 모달리티 작업으로 그 능력을 확장하고 있습니다. 그러나 동적이고 정보가 밀집된 비디오의 특성으로 인해 비디오 이해는 여전히 어려운 분야로 남아 있습니다. 기존 모델들은 비디오 콘텐츠를 처리할 때 공간 해상도와 시간적 커버리지 사이의 균형을 맞추는 데 어려움을 겪고 있습니다. 본 논문에서는 이러한 비디오 이해의 근본적인 문제를 해결하기 위해 세 가지 주요 혁신을 도입한 Keye-VL-1.5를 제안합니다. 첫째, 프레임 간 유사성에 따라 계산 자원을 동적으로 할당하는 Slow-Fast 비디오 인코딩 전략을 도입하여, 시각적 변화가 큰 키 프레임은 높은 해상도로 처리(Slow pathway)하고 상대적으로 정적인 프레임은 낮은 해상도로 더 넓은 시간적 커버리지를 갖춰 처리(Fast pathway)합니다. 둘째, 모델의 컨텍스트 길이를 8K 토큰에서 128K 토큰까지 체계적으로 확장하는 4단계 점진적 사전 학습 방법론을 구현하여 더 긴 비디오와 복잡한 시각적 콘텐츠를 처리할 수 있도록 합니다. 셋째, 추론 강화와 인간 선호도 정렬에 초점을 맞춘 포괄적인 사후 학습 파이프라인을 개발하며, 이를 위해 5단계 사고 연쇄(chain-of-thought) 데이터 구축 프로세스, 어려운 사례에 대한 점진적 프롬프트 힌팅을 포함한 GSPO 기반 반복적 강화 학습, 그리고 정렬 학습을 통합합니다. 공개 벤치마크와 엄격한 내부 인간 평가를 통해 Keye-VL-1.5는 기존 모델 대비 비디오 이해 작업에서 특히 뛰어난 성능을 보이며, 일반 멀티모달 벤치마크에서도 경쟁력 있는 성능을 유지함을 입증했습니다.
English
In recent years, the development of Large Language Models (LLMs) has significantly advanced, extending their capabilities to multimodal tasks through Multimodal Large Language Models (MLLMs). However, video understanding remains a challenging area due to the dynamic and information-dense nature of videos. Existing models struggle with the trade-off between spatial resolution and temporal coverage when processing video content. We present Keye-VL-1.5, which addresses fundamental challenges in video comprehension through three key innovations. First, we introduce a novel Slow-Fast video encoding strategy that dynamically allocates computational resources based on inter-frame similarity, processing key frames with significant visual changes at higher resolution (Slow pathway) while handling relatively static frames with increased temporal coverage at lower resolution (Fast pathway). Second, we implement a progressive four-stage pre-training methodology that systematically extends the model's context length from 8K to 128K tokens, enabling processing of longer videos and more complex visual content. Third, we develop a comprehensive post-training pipeline focusing on reasoning enhancement and human preference alignment, incorporating a 5-step chain-of-thought data construction process, iterative GSPO-based reinforcement learning with progressive prompt hinting for difficult cases, and alignment training. Through extensive evaluation on public benchmarks and rigorous internal human assessment, Keye-VL-1.5 demonstrates significant improvements over existing models, particularly excelling in video understanding tasks while maintaining competitive performance on general multimodal benchmarks.
PDF291September 3, 2025