Технический отчет Kwai Keye-VL-2.0

Аннотация

Мы представляем Kwai Keye-VL-2.0-30B-A3B — открытую мультимодальную фундаментальную модель, основанную на архитектуре «Смесь экспертов» (MoE), предназначенную для продвижения понимания длинных видео и агентного интеллекта. Чтобы решить проблемы сверхдлинных контекстов, избыточности информации и непомерно высоких вычислительных затрат, присущих видео длительностью в часы, Keye-VL-2.0 первой адаптирует разреженное внимание DeepSeek (DSA) для мультимодальных архитектур на основе GQA, обеспечивая обработку контекста до 256K без потерь с одновременным захватом ключевых кадров и долгосрочных временных зависимостей. Эта архитектура поддерживается высокооптимизированной инфраструктурой обучения и вывода, включая масштабируемый ввод-вывод видео, гетерогенный параллелизм ViT-LM и пользовательские ядра DSA, которые максимально увеличивают пропускную способность и минимизируют вычислительные накладные расходы. Кроме того, чтобы преодолеть алгоритмическую дилемму катастрофического забывания при многозадачном согласовании, мы вводим кросс-модальную многопедагогическую дистилляцию на политике (MOPD) в сочетании с Context-RL и Video-RL. Путем дистилляции плотной обратной связи учителя на уровне токенов из прогонов на политике обратно в основу MoE, которая активирует только 3 миллиарда параметров, Keye-VL-2.0 изначально обеспечивает продвинутое агентное сотрудничество в сценариях кода, инструментов и поиска с мультимодальной самокоррекцией. Обширные оценки в задачах понимания видео, временной локализации, рассуждения, STEM и агентных бенчмарках показывают, что Keye-VL-2.0-30B-A3B достигает передовой производительности среди моделей аналогичного масштаба, особенно преуспевая в точной временной локализации на TimeLens и понимании длинных видео на Video-MME-v2 и LongVideoBench. Мы публикуем контрольные точки нашей модели, чтобы ускорить прогресс сообщества в направлении масштабируемых и надежных мультимодальных агентных приложений.

English

We introduce Kwai Keye-VL-2.0-30B-A3B, an open-source Mixture-of-Experts (MoE) multimodal foundation model designed to advance long-video understanding and agentic intelligence. To address the challenges of ultra-long contexts, information redundancy, and prohibitive computational costs inherent in hour-level videos, Keye-VL-2.0 is the first to adapt DeepSeek Sparse Attention (DSA) to GQA-based multimodal architectures, enabling lossless 256K context processing while capturing critical frames and long-range temporal dependencies. This architecture is underpinned by a highly optimized training and inference infrastructure, including scalable video I/O, heterogeneous ViT-LM parallelism, and custom DSA kernels that significantly maximize throughput and minimize computational overhead. Furthermore, to overcome the algorithmic dilemma of catastrophic forgetting during multi-task alignment, we introduce Cross-Modal Multi-Teacher On-Policy Distillation (MOPD) paired with Context-RL and Video-RL. By distilling dense token-level teacher feedback from on-policy rollouts back into the MoE backbone, which activates only 3B parameters, Keye-VL-2.0 natively empowers advanced agent collaboration across Code, Tool, and Search scenarios with multimodal self-correction. Extensive evaluations across video understanding, temporal grounding, reasoning, STEM, and agent benchmarks demonstrate that Keye-VL-2.0-30B-A3B achieves state-of-the-art performance among models of similar scale, particularly excelling in fine-grained temporal localization on TimeLens and long-video comprehension on Video-MME-v2 and LongVideoBench. We release our model checkpoints to accelerate community progress toward scalable and robust multimodal agentic applications.