Informe Técnico de Kwai Keye-VL 1.5
Kwai Keye-VL 1.5 Technical Report
September 1, 2025
Autores: Biao Yang, Bin Wen, Boyang Ding, Changyi Liu, Chenglong Chu, Chengru Song, Chongling Rao, Chuan Yi, Da Li, Dunju Zang, Fan Yang, Guorui Zhou, Guowang Zhang, Han Shen, Hao Peng, Haojie Ding, Hao Wang, Hengrui Ju, Jiaming Huang, Jiangxia Cao, Jiankang Chen, Jingyun Hua, Kaibing Chen, Kaiyu Jiang, Kaiyu Tang, Kun Gai, Muhao Wei, Qiang Wang, Ruitao Wang, Sen Na, Shengnan Zhang, Siyang Mao, Sui Huang, Tianke Zhang, Tingting Gao, Wei Chen, Wei Yuan, Xiangyu Wu, Xiao Hu, Xingyu Lu, Yi-Fan Zhang, Yiping Yang, Yulong Chen, Zeyi Lu, Zhenhua Wu, Zhixin Ling, Zhuoran Yang, Ziming Li, Di Xu, Haixuan Gao, Hang Li, Jing Wang, Lejian Ren, Qigen Hu, Qianqian Wang, Shiyao Wang, Xinchen Luo, Yan Li, Yuhang Hu, Zixing Zhang
cs.AI
Resumen
En los últimos años, el desarrollo de Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) ha avanzado significativamente, extendiendo sus capacidades a tareas multimodales a través de Modelos de Lenguaje Multimodales de Gran Escala (MLLMs). Sin embargo, la comprensión de videos sigue siendo un área desafiante debido a la naturaleza dinámica y densa en información de los videos. Los modelos existentes enfrentan dificultades para equilibrar la resolución espacial y la cobertura temporal al procesar contenido de video. Presentamos Keye-VL-1.5, que aborda desafíos fundamentales en la comprensión de videos mediante tres innovaciones clave. Primero, introducimos una novedosa estrategia de codificación de video Lento-Rápido que asigna dinámicamente recursos computacionales basados en la similitud entre fotogramas, procesando fotogramas clave con cambios visuales significativos a mayor resolución (vía Lenta) mientras maneja fotogramas relativamente estáticos con mayor cobertura temporal a menor resolución (vía Rápida). Segundo, implementamos una metodología de preentrenamiento progresivo en cuatro etapas que extiende sistemáticamente la longitud de contexto del modelo de 8K a 128K tokens, permitiendo el procesamiento de videos más largos y contenido visual más complejo. Tercero, desarrollamos una canalización integral de postentrenamiento centrada en la mejora del razonamiento y la alineación con preferencias humanas, incorporando un proceso de construcción de datos de cadena de pensamiento en 5 pasos, aprendizaje por refuerzo iterativo basado en GSPO con indicaciones progresivas para casos difíciles y entrenamiento de alineación. A través de una evaluación exhaustiva en benchmarks públicos y una rigurosa evaluación humana interna, Keye-VL-1.5 demuestra mejoras significativas sobre los modelos existentes, destacándose especialmente en tareas de comprensión de videos mientras mantiene un rendimiento competitivo en benchmarks multimodales generales.
English
In recent years, the development of Large Language Models (LLMs) has
significantly advanced, extending their capabilities to multimodal tasks
through Multimodal Large Language Models (MLLMs). However, video understanding
remains a challenging area due to the dynamic and information-dense nature of
videos. Existing models struggle with the trade-off between spatial resolution
and temporal coverage when processing video content. We present Keye-VL-1.5,
which addresses fundamental challenges in video comprehension through three key
innovations. First, we introduce a novel Slow-Fast video encoding strategy that
dynamically allocates computational resources based on inter-frame similarity,
processing key frames with significant visual changes at higher resolution
(Slow pathway) while handling relatively static frames with increased temporal
coverage at lower resolution (Fast pathway). Second, we implement a progressive
four-stage pre-training methodology that systematically extends the model's
context length from 8K to 128K tokens, enabling processing of longer videos and
more complex visual content. Third, we develop a comprehensive post-training
pipeline focusing on reasoning enhancement and human preference alignment,
incorporating a 5-step chain-of-thought data construction process, iterative
GSPO-based reinforcement learning with progressive prompt hinting for difficult
cases, and alignment training. Through extensive evaluation on public
benchmarks and rigorous internal human assessment, Keye-VL-1.5 demonstrates
significant improvements over existing models, particularly excelling in video
understanding tasks while maintaining competitive performance on general
multimodal benchmarks.