Rapport Technique de Kwai Keye-VL

papers.abstract

Alors que les modèles de langage multimodaux à grande échelle (MLLMs) démontrent des capacités remarquables sur des images statiques, ils peinent souvent à comprendre des vidéos courtes dynamiques et riches en informations, un média dominant dans le paysage numérique actuel. Pour combler cette lacune, nous présentons Kwai Keye-VL, un modèle de fondation multimodal de 8 milliards de paramètres conçu pour offrir des performances de pointe dans la compréhension des vidéos courtes tout en conservant des capacités solides en vision et langage à usage général. Le développement de Keye-VL repose sur deux piliers fondamentaux : un ensemble de données massif et de haute qualité dépassant 600 milliards de tokens, avec un accent particulier sur la vidéo, et une méthode d'entraînement innovante. Cette méthode comprend un processus de pré-entraînement en quatre étapes pour un alignement solide entre la vision et le langage, suivi d'un processus de post-entraînement méticuleux en deux phases. La première phase de post-entraînement améliore les capacités fondamentales telles que le suivi des instructions, tandis que la deuxième phase se concentre sur la stimulation du raisonnement avancé. Dans cette deuxième phase, une innovation clé est notre mélange de données de « démarrage à froid » en cinq modes, incluant « pensée », « non-pensée », « auto-pensée », « pensée avec image » et des données vidéo de haute qualité. Ce mélange enseigne au modèle à décider quand et comment raisonner. Les étapes ultérieures d'apprentissage par renforcement (RL) et d'alignement renforcent davantage ces capacités de raisonnement et corrigent les comportements anormaux du modèle, tels que les sorties répétitives. Pour valider notre approche, nous menons des évaluations approfondies, montrant que Keye-VL atteint des résultats de pointe sur les benchmarks vidéo publics et reste très compétitif sur les tâches générales basées sur des images (Figure 1). De plus, nous développons et publions le KC-MMBench, un nouveau benchmark conçu pour les scénarios réels de vidéos courtes, où Keye-VL montre un avantage significatif.

English

While Multimodal Large Language Models (MLLMs) demonstrate remarkable capabilities on static images, they often fall short in comprehending dynamic, information-dense short-form videos, a dominant medium in today's digital landscape. To bridge this gap, we introduce Kwai Keye-VL, an 8-billion-parameter multimodal foundation model engineered for leading-edge performance in short-video understanding while maintaining robust general-purpose vision-language abilities. The development of Keye-VL rests on two core pillars: a massive, high-quality dataset exceeding 600 billion tokens with a strong emphasis on video, and an innovative training recipe. This recipe features a four-stage pre-training process for solid vision-language alignment, followed by a meticulous two-phase post-training process. The first post-training stage enhances foundational capabilities like instruction following, while the second phase focuses on stimulating advanced reasoning. In this second phase, a key innovation is our five-mode ``cold-start'' data mixture, which includes ``thinking'', ``non-thinking'', ``auto-think'', ``think with image'', and high-quality video data. This mixture teaches the model to decide when and how to reason. Subsequent reinforcement learning (RL) and alignment steps further enhance these reasoning capabilities and correct abnormal model behaviors, such as repetitive outputs. To validate our approach, we conduct extensive evaluations, showing that Keye-VL achieves state-of-the-art results on public video benchmarks and remains highly competitive on general image-based tasks (Figure 1). Furthermore, we develop and release the KC-MMBench, a new benchmark tailored for real-world short-video scenarios, where Keye-VL shows a significant advantage.

Rapport Technique de Kwai Keye-VL

Kwai Keye-VL Technical Report

papers.abstract

Support