Rapport technique de Kwai Keye-VL-2.0

Résumé

Nous présentons Kwai Keye-VL-2.0-30B-A3B, un modèle fondation multimodal open-source à base de Mixture-of-Experts (MoE) conçu pour faire progresser la compréhension de longues vidéos et l’intelligence agentique. Pour relever les défis liés aux contextes ultra-longs, à la redondance d’information et aux coûts de calcul prohibitifs inhérents aux vidéos d’une heure ou plus, Keye-VL-2.0 est le premier à adapter l’attention sparse DeepSeek (DSA) aux architectures multimodales basées sur GQA, permettant un traitement sans perte de contextes de 256 000 tokens tout en capturant les trames critiques et les dépendances temporelles à longue portée. Cette architecture s’appuie sur une infrastructure d’entraînement et d’inférence hautement optimisée, incluant des entrées-sorties vidéo évolutives, un parallélisme hétérogène ViT-LM et des noyaux DSA personnalisés qui maximisent significativement le débit et minimisent la surcharge de calcul. De plus, pour surmonter le dilemme algorithmique de l’oubli catastrophique lors de l’alignement multitâche, nous introduisons la distillation multi-enseignante cross-modale sur politique (MOPD) associée à Context-RL et Video-RL. En distillant les retours d’enseignants denses au niveau des tokens issus de déploiements sur politique dans le réseau MoE, qui n’active que 3 milliards de paramètres, Keye-VL-2.0 permet nativement une collaboration agentique avancée entre les scénarios de Code, d’Outils et de Recherche, avec une auto-correction multimodale. Des évaluations approfondies sur des référentiels de compréhension vidéo, d’ancrage temporel, de raisonnement, de STEM et de capacités agentiques démontrent que Keye-VL-2.0-30B-A3B atteint des performances de pointe parmi les modèles d’échelle similaire, excellant particulièrement dans la localisation temporelle fine sur TimeLens et la compréhension de longues vidéos sur Video-MME-v2 et LongVideoBench. Nous publions nos points de contrôle de modèle afin d’accélérer les progrès de la communauté vers des applications agentiques multimodales évolutives et robustes.

English

We introduce Kwai Keye-VL-2.0-30B-A3B, an open-source Mixture-of-Experts (MoE) multimodal foundation model designed to advance long-video understanding and agentic intelligence. To address the challenges of ultra-long contexts, information redundancy, and prohibitive computational costs inherent in hour-level videos, Keye-VL-2.0 is the first to adapt DeepSeek Sparse Attention (DSA) to GQA-based multimodal architectures, enabling lossless 256K context processing while capturing critical frames and long-range temporal dependencies. This architecture is underpinned by a highly optimized training and inference infrastructure, including scalable video I/O, heterogeneous ViT-LM parallelism, and custom DSA kernels that significantly maximize throughput and minimize computational overhead. Furthermore, to overcome the algorithmic dilemma of catastrophic forgetting during multi-task alignment, we introduce Cross-Modal Multi-Teacher On-Policy Distillation (MOPD) paired with Context-RL and Video-RL. By distilling dense token-level teacher feedback from on-policy rollouts back into the MoE backbone, which activates only 3B parameters, Keye-VL-2.0 natively empowers advanced agent collaboration across Code, Tool, and Search scenarios with multimodal self-correction. Extensive evaluations across video understanding, temporal grounding, reasoning, STEM, and agent benchmarks demonstrate that Keye-VL-2.0-30B-A3B achieves state-of-the-art performance among models of similar scale, particularly excelling in fine-grained temporal localization on TimeLens and long-video comprehension on Video-MME-v2 and LongVideoBench. We release our model checkpoints to accelerate community progress toward scalable and robust multimodal agentic applications.