ChatPaper.aiChatPaper

Informe Técnico de Kwai Keye-VL

Kwai Keye-VL Technical Report

July 2, 2025
Autores: Kwai Keye Team, Biao Yang, Bin Wen, Changyi Liu, Chenglong Chu, Chengru Song, Chongling Rao, Chuan Yi, Da Li, Dunju Zang, Fan Yang, Guorui Zhou, Hao Peng, Haojie Ding, Jiaming Huang, Jiangxia Cao, Jiankang Chen, Jingyun Hua, Jin Ouyang, Kaibing Chen, Kaiyu Jiang, Kaiyu Tang, Kun Gai, Shengnan Zhang, Siyang Mao, Sui Huang, Tianke Zhang, Tingting Gao, Wei Chen, Wei Yuan, Xiangyu Wu, Xiao Hu, Xingyu Lu, Yang Zhou, Yi-Fan Zhang, Yiping Yang, Yulong Chen, Zhenhua Wu, Zhenyu Li, Zhixin Ling, Ziming Li, Dehua Ma, Di Xu, Haixuan Gao, Hang Li, Jiawei Guo, Jing Wang, Lejian Ren, Muhao Wei, Qianqian Wang, Qigen Hu, Shiyao Wang, Tao Yu, Xinchen Luo, Yan Li, Yiming Liang, Yuhang Hu, Zeyi Lu, Zhuoran Yang, Zixing Zhang
cs.AI

Resumen

Si bien los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) demuestran capacidades notables en imágenes estáticas, a menudo se quedan cortos en la comprensión de videos cortos dinámicos y densos en información, un medio dominante en el panorama digital actual. Para cerrar esta brecha, presentamos Kwai Keye-VL, un modelo base multimodal de 8 mil millones de parámetros diseñado para un rendimiento líder en la comprensión de videos cortos, manteniendo al mismo tiempo sólidas capacidades generales de visión y lenguaje. El desarrollo de Keye-VL se basa en dos pilares fundamentales: un conjunto de datos masivo y de alta calidad que supera los 600 mil millones de tokens, con un fuerte énfasis en video, y una receta de entrenamiento innovadora. Esta receta incluye un proceso de preentrenamiento en cuatro etapas para una alineación sólida entre visión y lenguaje, seguido de un meticuloso proceso de postentrenamiento en dos fases. La primera etapa de postentrenamiento mejora capacidades fundamentales como el seguimiento de instrucciones, mientras que la segunda fase se centra en estimular el razonamiento avanzado. En esta segunda fase, una innovación clave es nuestra mezcla de datos de "arranque en frío" de cinco modos, que incluye "pensar", "no pensar", "auto-pensar", "pensar con imagen" y datos de video de alta calidad. Esta mezcla enseña al modelo a decidir cuándo y cómo razonar. Los pasos posteriores de aprendizaje por refuerzo (RL, por sus siglas en inglés) y alineación mejoran aún más estas capacidades de razonamiento y corrigen comportamientos anómalos del modelo, como salidas repetitivas. Para validar nuestro enfoque, realizamos evaluaciones exhaustivas, mostrando que Keye-VL alcanza resultados de vanguardia en benchmarks públicos de video y sigue siendo altamente competitivo en tareas generales basadas en imágenes (Figura 1). Además, desarrollamos y publicamos el KC-MMBench, un nuevo benchmark diseñado para escenarios reales de videos cortos, donde Keye-VL muestra una ventaja significativa.
English
While Multimodal Large Language Models (MLLMs) demonstrate remarkable capabilities on static images, they often fall short in comprehending dynamic, information-dense short-form videos, a dominant medium in today's digital landscape. To bridge this gap, we introduce Kwai Keye-VL, an 8-billion-parameter multimodal foundation model engineered for leading-edge performance in short-video understanding while maintaining robust general-purpose vision-language abilities. The development of Keye-VL rests on two core pillars: a massive, high-quality dataset exceeding 600 billion tokens with a strong emphasis on video, and an innovative training recipe. This recipe features a four-stage pre-training process for solid vision-language alignment, followed by a meticulous two-phase post-training process. The first post-training stage enhances foundational capabilities like instruction following, while the second phase focuses on stimulating advanced reasoning. In this second phase, a key innovation is our five-mode ``cold-start'' data mixture, which includes ``thinking'', ``non-thinking'', ``auto-think'', ``think with image'', and high-quality video data. This mixture teaches the model to decide when and how to reason. Subsequent reinforcement learning (RL) and alignment steps further enhance these reasoning capabilities and correct abnormal model behaviors, such as repetitive outputs. To validate our approach, we conduct extensive evaluations, showing that Keye-VL achieves state-of-the-art results on public video benchmarks and remains highly competitive on general image-based tasks (Figure 1). Furthermore, we develop and release the KC-MMBench, a new benchmark tailored for real-world short-video scenarios, where Keye-VL shows a significant advantage.
PDF911July 3, 2025