Informe Técnico de Kwai Keye-VL-2.0

Resumen

Presentamos Kwai Keye-VL-2.0-30B-A3B, un modelo fundacional multimodal de código abierto basado en Mezcla de Expertos (MoE) diseñado para avanzar en la comprensión de videos largos y la inteligencia agente. Para abordar los desafíos de contextos ultraextensos, redundancia informativa y costos computacionales prohibitivos inherentes a videos de duración horaria, Keye-VL-2.0 es el primero en adaptar DeepSeek Sparse Attention (DSA) a arquitecturas multimodales basadas en GQA, permitiendo el procesamiento sin pérdidas de contextos de 256K a la vez que captura fotogramas críticos y dependencias temporales de largo alcance. Esta arquitectura se sustenta en una infraestructura de entrenamiento e inferencia altamente optimizada, que incluye E/S de video escalable, paralelismo heterogéneo ViT-LM y kernels DSA personalizados que maximizan significativamente el rendimiento y minimizan la sobrecarga computacional. Además, para superar el dilema algorítmico del olvido catastrófico durante el alineamiento multitarea, introducimos la Destilación On-Policy Multi-Maestro entre Modalidades (MOPD) emparejada con Context-RL y Video-RL. Al destilar la retroalimentación densa a nivel de token de maestros obtenida de despliegues on-policy de vuelta a la columna vertebral MoE, que activa solo 3 mil millones de parámetros, Keye-VL-2.0 habilita de forma nativa la colaboración avanzada entre agentes en escenarios de Código, Herramienta y Búsqueda con autocorrección multimodal. Evaluaciones exhaustivas en benchmarks de comprensión de video, anclaje temporal, razonamiento, STEM y agentes demuestran que Keye-VL-2.0-30B-A3B alcanza un rendimiento de vanguardia entre modelos de escala similar, destacando especialmente en localización temporal fina en TimeLens y comprensión de videos largos en Video-MME-v2 y LongVideoBench. Publicamos nuestros puntos de control del modelo para acelerar el progreso de la comunidad hacia aplicaciones agente multimodales escalables y robustas.

English

We introduce Kwai Keye-VL-2.0-30B-A3B, an open-source Mixture-of-Experts (MoE) multimodal foundation model designed to advance long-video understanding and agentic intelligence. To address the challenges of ultra-long contexts, information redundancy, and prohibitive computational costs inherent in hour-level videos, Keye-VL-2.0 is the first to adapt DeepSeek Sparse Attention (DSA) to GQA-based multimodal architectures, enabling lossless 256K context processing while capturing critical frames and long-range temporal dependencies. This architecture is underpinned by a highly optimized training and inference infrastructure, including scalable video I/O, heterogeneous ViT-LM parallelism, and custom DSA kernels that significantly maximize throughput and minimize computational overhead. Furthermore, to overcome the algorithmic dilemma of catastrophic forgetting during multi-task alignment, we introduce Cross-Modal Multi-Teacher On-Policy Distillation (MOPD) paired with Context-RL and Video-RL. By distilling dense token-level teacher feedback from on-policy rollouts back into the MoE backbone, which activates only 3B parameters, Keye-VL-2.0 natively empowers advanced agent collaboration across Code, Tool, and Search scenarios with multimodal self-correction. Extensive evaluations across video understanding, temporal grounding, reasoning, STEM, and agent benchmarks demonstrate that Keye-VL-2.0-30B-A3B achieves state-of-the-art performance among models of similar scale, particularly excelling in fine-grained temporal localization on TimeLens and long-video comprehension on Video-MME-v2 and LongVideoBench. We release our model checkpoints to accelerate community progress toward scalable and robust multimodal agentic applications.