ChatPaper.aiChatPaper

Relatório Técnico do Kwai Keye-VL 1.5

Kwai Keye-VL 1.5 Technical Report

September 1, 2025
Autores: Biao Yang, Bin Wen, Boyang Ding, Changyi Liu, Chenglong Chu, Chengru Song, Chongling Rao, Chuan Yi, Da Li, Dunju Zang, Fan Yang, Guorui Zhou, Guowang Zhang, Han Shen, Hao Peng, Haojie Ding, Hao Wang, Hengrui Ju, Jiaming Huang, Jiangxia Cao, Jiankang Chen, Jingyun Hua, Kaibing Chen, Kaiyu Jiang, Kaiyu Tang, Kun Gai, Muhao Wei, Qiang Wang, Ruitao Wang, Sen Na, Shengnan Zhang, Siyang Mao, Sui Huang, Tianke Zhang, Tingting Gao, Wei Chen, Wei Yuan, Xiangyu Wu, Xiao Hu, Xingyu Lu, Yi-Fan Zhang, Yiping Yang, Yulong Chen, Zeyi Lu, Zhenhua Wu, Zhixin Ling, Zhuoran Yang, Ziming Li, Di Xu, Haixuan Gao, Hang Li, Jing Wang, Lejian Ren, Qigen Hu, Qianqian Wang, Shiyao Wang, Xinchen Luo, Yan Li, Yuhang Hu, Zixing Zhang
cs.AI

Resumo

Nos últimos anos, o desenvolvimento de Modelos de Linguagem de Grande Escala (LLMs) avançou significativamente, estendendo suas capacidades para tarefas multimodais por meio de Modelos de Linguagem de Grande Escala Multimodais (MLLMs). No entanto, a compreensão de vídeos continua sendo uma área desafiadora devido à natureza dinâmica e rica em informações dos vídeos. Os modelos existentes lutam com o equilíbrio entre resolução espacial e cobertura temporal ao processar conteúdo de vídeo. Apresentamos o Keye-VL-1.5, que aborda desafios fundamentais na compreensão de vídeos por meio de três inovações principais. Primeiro, introduzimos uma nova estratégia de codificação de vídeo Slow-Fast que aloca dinamicamente recursos computacionais com base na similaridade entre quadros, processando quadros-chave com mudanças visuais significativas em alta resolução (caminho Slow) enquanto trata quadros relativamente estáticos com maior cobertura temporal em baixa resolução (caminho Fast). Segundo, implementamos uma metodologia de pré-treinamento progressivo em quatro estágios que estende sistematicamente o comprimento de contexto do modelo de 8K para 128K tokens, permitindo o processamento de vídeos mais longos e conteúdo visual mais complexo. Terceiro, desenvolvemos um pipeline abrangente de pós-treinamento focado no aprimoramento do raciocínio e no alinhamento com preferências humanas, incorporando um processo de construção de dados de cadeia de pensamento em 5 etapas, aprendizado por reforço iterativo baseado em GSPO com dicas progressivas de prompt para casos difíceis e treinamento de alinhamento. Por meio de avaliação extensa em benchmarks públicos e rigorosa avaliação humana interna, o Keye-VL-1.5 demonstra melhorias significativas em relação aos modelos existentes, destacando-se particularmente em tarefas de compreensão de vídeos enquanto mantém desempenho competitivo em benchmarks multimodais gerais.
English
In recent years, the development of Large Language Models (LLMs) has significantly advanced, extending their capabilities to multimodal tasks through Multimodal Large Language Models (MLLMs). However, video understanding remains a challenging area due to the dynamic and information-dense nature of videos. Existing models struggle with the trade-off between spatial resolution and temporal coverage when processing video content. We present Keye-VL-1.5, which addresses fundamental challenges in video comprehension through three key innovations. First, we introduce a novel Slow-Fast video encoding strategy that dynamically allocates computational resources based on inter-frame similarity, processing key frames with significant visual changes at higher resolution (Slow pathway) while handling relatively static frames with increased temporal coverage at lower resolution (Fast pathway). Second, we implement a progressive four-stage pre-training methodology that systematically extends the model's context length from 8K to 128K tokens, enabling processing of longer videos and more complex visual content. Third, we develop a comprehensive post-training pipeline focusing on reasoning enhancement and human preference alignment, incorporating a 5-step chain-of-thought data construction process, iterative GSPO-based reinforcement learning with progressive prompt hinting for difficult cases, and alignment training. Through extensive evaluation on public benchmarks and rigorous internal human assessment, Keye-VL-1.5 demonstrates significant improvements over existing models, particularly excelling in video understanding tasks while maintaining competitive performance on general multimodal benchmarks.
PDF351September 3, 2025