ChatPaper.aiChatPaper

Kwai Keye-VL Technischer Bericht

Kwai Keye-VL Technical Report

July 2, 2025
Autoren: Kwai Keye Team, Biao Yang, Bin Wen, Changyi Liu, Chenglong Chu, Chengru Song, Chongling Rao, Chuan Yi, Da Li, Dunju Zang, Fan Yang, Guorui Zhou, Hao Peng, Haojie Ding, Jiaming Huang, Jiangxia Cao, Jiankang Chen, Jingyun Hua, Jin Ouyang, Kaibing Chen, Kaiyu Jiang, Kaiyu Tang, Kun Gai, Shengnan Zhang, Siyang Mao, Sui Huang, Tianke Zhang, Tingting Gao, Wei Chen, Wei Yuan, Xiangyu Wu, Xiao Hu, Xingyu Lu, Yang Zhou, Yi-Fan Zhang, Yiping Yang, Yulong Chen, Zhenhua Wu, Zhenyu Li, Zhixin Ling, Ziming Li, Dehua Ma, Di Xu, Haixuan Gao, Hang Li, Jiawei Guo, Jing Wang, Lejian Ren, Muhao Wei, Qianqian Wang, Qigen Hu, Shiyao Wang, Tao Yu, Xinchen Luo, Yan Li, Yiming Liang, Yuhang Hu, Zeyi Lu, Zhuoran Yang, Zixing Zhang
cs.AI

Zusammenfassung

Während Multimodale Große Sprachmodelle (MLLMs) bemerkenswerte Fähigkeiten bei der Verarbeitung statischer Bilder zeigen, sind sie oft weniger in der Lage, dynamische, informationsreiche Kurzvideos zu verstehen, ein dominierendes Medium in der heutigen digitalen Landschaft. Um diese Lücke zu schließen, stellen wir Kwai Keye-VL vor, ein multimodales Basismodell mit 8 Milliarden Parametern, das für Spitzenleistungen im Verständnis von Kurzvideos entwickelt wurde, während es gleichzeitig robuste allgemeine Bild-Sprach-Fähigkeiten beibehält. Die Entwicklung von Keye-VL basiert auf zwei zentralen Säulen: einem umfangreichen, hochwertigen Datensatz mit über 600 Milliarden Tokens, der einen starken Fokus auf Videos legt, und einem innovativen Trainingsrezept. Dieses Rezept umfasst einen vierstufigen Vor-Trainingsprozess für eine solide Ausrichtung von Bild und Sprache, gefolgt von einem sorgfältig ausgearbeiteten zweiphasigen Nach-Trainingsprozess. Die erste Phase des Nach-Trainings verbessert grundlegende Fähigkeiten wie die Befolgung von Anweisungen, während die zweite Phase darauf abzielt, fortgeschrittenes Denken zu fördern. In dieser zweiten Phase ist eine Schlüsselinnovation unsere fünfmodige „Kaltstart“-Datenmischung, die „Denken“, „Nicht-Denken“, „Auto-Denken“, „Denken mit Bild“ und hochwertige Videodaten umfasst. Diese Mischung lehrt das Modell, zu entscheiden, wann und wie es denken soll. Nachfolgende Verstärkungslernschritte (RL) und Ausrichtungsschritte verbessern diese Denkfähigkeiten weiter und korrigieren abnormales Modellverhalten, wie wiederholte Ausgaben. Um unseren Ansatz zu validieren, führen wir umfangreiche Evaluierungen durch, die zeigen, dass Keye-VL auf öffentlichen Video-Benchmarks state-of-the-art Ergebnisse erzielt und bei allgemeinen bildbasierten Aufgaben (Abbildung 1) hochgradig wettbewerbsfähig bleibt. Darüber hinaus entwickeln und veröffentlichen wir den KC-MMBench, einen neuen Benchmark, der speziell für reale Kurzvideo-Szenarien entwickelt wurde, in denen Keye-VL einen deutlichen Vorteil zeigt.
English
While Multimodal Large Language Models (MLLMs) demonstrate remarkable capabilities on static images, they often fall short in comprehending dynamic, information-dense short-form videos, a dominant medium in today's digital landscape. To bridge this gap, we introduce Kwai Keye-VL, an 8-billion-parameter multimodal foundation model engineered for leading-edge performance in short-video understanding while maintaining robust general-purpose vision-language abilities. The development of Keye-VL rests on two core pillars: a massive, high-quality dataset exceeding 600 billion tokens with a strong emphasis on video, and an innovative training recipe. This recipe features a four-stage pre-training process for solid vision-language alignment, followed by a meticulous two-phase post-training process. The first post-training stage enhances foundational capabilities like instruction following, while the second phase focuses on stimulating advanced reasoning. In this second phase, a key innovation is our five-mode ``cold-start'' data mixture, which includes ``thinking'', ``non-thinking'', ``auto-think'', ``think with image'', and high-quality video data. This mixture teaches the model to decide when and how to reason. Subsequent reinforcement learning (RL) and alignment steps further enhance these reasoning capabilities and correct abnormal model behaviors, such as repetitive outputs. To validate our approach, we conduct extensive evaluations, showing that Keye-VL achieves state-of-the-art results on public video benchmarks and remains highly competitive on general image-based tasks (Figure 1). Furthermore, we develop and release the KC-MMBench, a new benchmark tailored for real-world short-video scenarios, where Keye-VL shows a significant advantage.
PDF941July 3, 2025