Relat\u00f3rio T\u00e9cnico do Kwai Keye-VL-2.0

Resumo

Apresentamos o Kwai Keye-VL-2.0-30B-A3B, um modelo fundacional multimodal de código aberto baseado em Mistura de Especialistas (MoE), projetado para avançar a compreensão de vídeos longos e a inteligência agentiva. Para enfrentar os desafios de contextos ultra-longos, redundância de informações e custos computacionais proibitivos inerentes a vídeos de nível de horas, o Keye-VL-2.0 é o primeiro a adaptar a Atenção Esparsa do DeepSeek (DSA) a arquiteturas multimodais baseadas em GQA, permitindo o processamento de contexto de 256K sem perdas, enquanto captura quadros críticos e dependências temporais de longo alcance. Essa arquitetura é sustentada por uma infraestrutura de treinamento e inferência altamente otimizada, incluindo E/S de vídeo escalável, paralelismo heterogêneo ViT-LM e kernels DSA personalizados que maximizam significativamente a taxa de transferência e minimizam a sobrecarga computacional. Além disso, para superar o dilema algorítmico do esquecimento catastrófico durante o alinhamento multitarefa, introduzimos a Destilação On-Policy Multi-Professor Cross-Modal (MOPD), combinada com Context-RL e Video-RL. Ao destilar o feedback denso do professor em nível de token, proveniente de rollouts on-policy, de volta para o backbone MoE, que ativa apenas 3 bilhões de parâmetros, o Keye-VL-2.0 capacita nativamente a colaboração avançada de agentes em cenários de Código, Ferramenta e Busca, com autocorreção multimodal. Avaliações extensivas em benchmarks de compreensão de vídeo, ancoragem temporal, raciocínio, STEM e agentes demonstram que o Keye-VL-2.0-30B-A3B alcança desempenho de ponta entre modelos de escala similar, destacando-se particularmente em localização temporal refinada no TimeLens e na compreensão de vídeos longos no Video-MME-v2 e no LongVideoBench. Disponibilizamos nossos checkpoints do modelo para acelerar o progresso da comunidade em direção a aplicações agentivas multimodais escaláveis e robustas.

English

We introduce Kwai Keye-VL-2.0-30B-A3B, an open-source Mixture-of-Experts (MoE) multimodal foundation model designed to advance long-video understanding and agentic intelligence. To address the challenges of ultra-long contexts, information redundancy, and prohibitive computational costs inherent in hour-level videos, Keye-VL-2.0 is the first to adapt DeepSeek Sparse Attention (DSA) to GQA-based multimodal architectures, enabling lossless 256K context processing while capturing critical frames and long-range temporal dependencies. This architecture is underpinned by a highly optimized training and inference infrastructure, including scalable video I/O, heterogeneous ViT-LM parallelism, and custom DSA kernels that significantly maximize throughput and minimize computational overhead. Furthermore, to overcome the algorithmic dilemma of catastrophic forgetting during multi-task alignment, we introduce Cross-Modal Multi-Teacher On-Policy Distillation (MOPD) paired with Context-RL and Video-RL. By distilling dense token-level teacher feedback from on-policy rollouts back into the MoE backbone, which activates only 3B parameters, Keye-VL-2.0 natively empowers advanced agent collaboration across Code, Tool, and Search scenarios with multimodal self-correction. Extensive evaluations across video understanding, temporal grounding, reasoning, STEM, and agent benchmarks demonstrate that Keye-VL-2.0-30B-A3B achieves state-of-the-art performance among models of similar scale, particularly excelling in fine-grained temporal localization on TimeLens and long-video comprehension on Video-MME-v2 and LongVideoBench. We release our model checkpoints to accelerate community progress toward scalable and robust multimodal agentic applications.