Relatório Técnico Kwai Keye-VL
Kwai Keye-VL Technical Report
July 2, 2025
Autores: Kwai Keye Team, Biao Yang, Bin Wen, Changyi Liu, Chenglong Chu, Chengru Song, Chongling Rao, Chuan Yi, Da Li, Dunju Zang, Fan Yang, Guorui Zhou, Hao Peng, Haojie Ding, Jiaming Huang, Jiangxia Cao, Jiankang Chen, Jingyun Hua, Jin Ouyang, Kaibing Chen, Kaiyu Jiang, Kaiyu Tang, Kun Gai, Shengnan Zhang, Siyang Mao, Sui Huang, Tianke Zhang, Tingting Gao, Wei Chen, Wei Yuan, Xiangyu Wu, Xiao Hu, Xingyu Lu, Yang Zhou, Yi-Fan Zhang, Yiping Yang, Yulong Chen, Zhenhua Wu, Zhenyu Li, Zhixin Ling, Ziming Li, Dehua Ma, Di Xu, Haixuan Gao, Hang Li, Jiawei Guo, Jing Wang, Lejian Ren, Muhao Wei, Qianqian Wang, Qigen Hu, Shiyao Wang, Tao Yu, Xinchen Luo, Yan Li, Yiming Liang, Yuhang Hu, Zeyi Lu, Zhuoran Yang, Zixing Zhang
cs.AI
Resumo
Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) demonstrem capacidades notáveis em imagens estáticas, eles frequentemente têm dificuldades em compreender vídeos curtos dinâmicos e ricos em informações, um meio dominante no cenário digital atual. Para preencher essa lacuna, apresentamos o Kwai Keye-VL, um modelo de base multimodal com 8 bilhões de parâmetros, projetado para oferecer desempenho de ponta na compreensão de vídeos curtos, mantendo ao mesmo tempo robustas habilidades gerais de visão e linguagem. O desenvolvimento do Keye-VL baseia-se em dois pilares principais: um conjunto de dados massivo e de alta qualidade, que ultrapassa 600 bilhões de tokens com forte ênfase em vídeo, e uma receita de treinamento inovadora. Essa receita inclui um processo de pré-treinamento em quatro estágios para um alinhamento sólido entre visão e linguagem, seguido por um meticuloso processo de pós-treinamento em duas fases. A primeira fase do pós-treinamento aprimora capacidades fundamentais, como seguir instruções, enquanto a segunda fase se concentra em estimular o raciocínio avançado. Nesta segunda fase, uma inovação crucial é nossa mistura de dados de "inicialização a frio" de cinco modos, que inclui "pensar", "não pensar", "auto-pensar", "pensar com imagem" e dados de vídeo de alta qualidade. Essa mistura ensina o modelo a decidir quando e como raciocinar. Passos subsequentes de aprendizado por reforço (RL) e alinhamento aprimoram ainda mais essas capacidades de raciocínio e corrigem comportamentos anormais do modelo, como saídas repetitivas. Para validar nossa abordagem, realizamos avaliações extensas, mostrando que o Keye-VL alcança resultados de última geração em benchmarks públicos de vídeo e mantém-se altamente competitivo em tarefas gerais baseadas em imagens (Figura 1). Além disso, desenvolvemos e lançamos o KC-MMBench, um novo benchmark projetado para cenários reais de vídeos curtos, onde o Keye-VL demonstra uma vantagem significativa.
English
While Multimodal Large Language Models (MLLMs) demonstrate remarkable
capabilities on static images, they often fall short in comprehending dynamic,
information-dense short-form videos, a dominant medium in today's digital
landscape. To bridge this gap, we introduce Kwai Keye-VL, an
8-billion-parameter multimodal foundation model engineered for leading-edge
performance in short-video understanding while maintaining robust
general-purpose vision-language abilities. The development of Keye-VL rests on
two core pillars: a massive, high-quality dataset exceeding 600 billion tokens
with a strong emphasis on video, and an innovative training recipe. This recipe
features a four-stage pre-training process for solid vision-language alignment,
followed by a meticulous two-phase post-training process. The first
post-training stage enhances foundational capabilities like instruction
following, while the second phase focuses on stimulating advanced reasoning. In
this second phase, a key innovation is our five-mode ``cold-start'' data
mixture, which includes ``thinking'', ``non-thinking'', ``auto-think'', ``think
with image'', and high-quality video data. This mixture teaches the model to
decide when and how to reason. Subsequent reinforcement learning (RL) and
alignment steps further enhance these reasoning capabilities and correct
abnormal model behaviors, such as repetitive outputs. To validate our approach,
we conduct extensive evaluations, showing that Keye-VL achieves
state-of-the-art results on public video benchmarks and remains highly
competitive on general image-based tasks (Figure 1). Furthermore, we develop
and release the KC-MMBench, a new benchmark tailored for real-world
short-video scenarios, where Keye-VL shows a significant advantage.