Технический отчет Kwai Keye-VL 1.5

Аннотация

В последние годы развитие крупных языковых моделей (LLM) значительно продвинулось, расширив их возможности до мультимодальных задач с помощью мультимодальных крупных языковых моделей (MLLM). Однако понимание видео остается сложной областью из-за динамичного и насыщенного информацией характера видеоконтента. Существующие модели сталкиваются с компромиссом между пространственным разрешением и временным охватом при обработке видео. Мы представляем Keye-VL-1.5, который решает фундаментальные задачи в понимании видео благодаря трем ключевым инновациям. Во-первых, мы внедряем новую стратегию кодирования видео Slow-Fast, которая динамически распределяет вычислительные ресурсы на основе межкадрового сходства, обрабатывая ключевые кадры с существенными визуальными изменениями с более высоким разрешением (Slow pathway), а относительно статичные кадры — с увеличенным временным охватом и меньшим разрешением (Fast pathway). Во-вторых, мы реализуем прогрессивную четырехэтапную методику предварительного обучения, которая систематически расширяет контекстную длину модели с 8K до 128K токенов, позволяя обрабатывать более длинные видео и сложный визуальный контент. В-третьих, мы разрабатываем комплексный процесс пост-обучения, сосредоточенный на улучшении рассуждений и согласовании с человеческими предпочтениями, включая 5-шаговый процесс построения цепочки рассуждений, итеративное обучение с подкреплением на основе GSPO с прогрессивными подсказками для сложных случаев и обучение согласованию. Благодаря обширной оценке на публичных бенчмарках и строгому внутреннему человеческому тестированию, Keye-VL-1.5 демонстрирует значительные улучшения по сравнению с существующими моделями, особенно выделяясь в задачах понимания видео, сохраняя при этом конкурентоспособные результаты на общих мультимодальных бенчмарках.

English

In recent years, the development of Large Language Models (LLMs) has significantly advanced, extending their capabilities to multimodal tasks through Multimodal Large Language Models (MLLMs). However, video understanding remains a challenging area due to the dynamic and information-dense nature of videos. Existing models struggle with the trade-off between spatial resolution and temporal coverage when processing video content. We present Keye-VL-1.5, which addresses fundamental challenges in video comprehension through three key innovations. First, we introduce a novel Slow-Fast video encoding strategy that dynamically allocates computational resources based on inter-frame similarity, processing key frames with significant visual changes at higher resolution (Slow pathway) while handling relatively static frames with increased temporal coverage at lower resolution (Fast pathway). Second, we implement a progressive four-stage pre-training methodology that systematically extends the model's context length from 8K to 128K tokens, enabling processing of longer videos and more complex visual content. Third, we develop a comprehensive post-training pipeline focusing on reasoning enhancement and human preference alignment, incorporating a 5-step chain-of-thought data construction process, iterative GSPO-based reinforcement learning with progressive prompt hinting for difficult cases, and alignment training. Through extensive evaluation on public benchmarks and rigorous internal human assessment, Keye-VL-1.5 demonstrates significant improvements over existing models, particularly excelling in video understanding tasks while maintaining competitive performance on general multimodal benchmarks.

Технический отчет Kwai Keye-VL 1.5

Kwai Keye-VL 1.5 Technical Report

Аннотация

Support