クワイ・キーVL技術報告書
Kwai Keye-VL Technical Report
July 2, 2025
著者: Kwai Keye Team, Biao Yang, Bin Wen, Changyi Liu, Chenglong Chu, Chengru Song, Chongling Rao, Chuan Yi, Da Li, Dunju Zang, Fan Yang, Guorui Zhou, Hao Peng, Haojie Ding, Jiaming Huang, Jiangxia Cao, Jiankang Chen, Jingyun Hua, Jin Ouyang, Kaibing Chen, Kaiyu Jiang, Kaiyu Tang, Kun Gai, Shengnan Zhang, Siyang Mao, Sui Huang, Tianke Zhang, Tingting Gao, Wei Chen, Wei Yuan, Xiangyu Wu, Xiao Hu, Xingyu Lu, Yang Zhou, Yi-Fan Zhang, Yiping Yang, Yulong Chen, Zhenhua Wu, Zhenyu Li, Zhixin Ling, Ziming Li, Dehua Ma, Di Xu, Haixuan Gao, Hang Li, Jiawei Guo, Jing Wang, Lejian Ren, Muhao Wei, Qianqian Wang, Qigen Hu, Shiyao Wang, Tao Yu, Xinchen Luo, Yan Li, Yiming Liang, Yuhang Hu, Zeyi Lu, Zhuoran Yang, Zixing Zhang
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)は静止画像において顕著な能力を発揮するものの、今日のデジタル環境で主流である動的で情報密度の高いショートフォーム動画の理解にはしばしば限界を示す。このギャップを埋めるため、我々はKwai Keye-VLを導入する。これは80億パラメータを有するマルチモーダル基盤モデルであり、ショート動画理解において最先端の性能を発揮しつつ、汎用的な視覚-言語能力も堅牢に維持する。Keye-VLの開発は、2つの核心的な柱に基づいている。1つは、動画に重点を置いた6000億トークンを超える大規模で高品質なデータセット、もう1つは革新的なトレーニング手法である。この手法は、視覚-言語の整合性を確立するための4段階の事前学習プロセスと、緻密な2段階の事後学習プロセスを特徴とする。最初の事後学習段階では、指示追従などの基盤能力を強化し、第2段階では高度な推論能力を刺激することに焦点を当てる。この第2段階では、5つのモードからなる「コールドスタート」データ混合が重要な革新点であり、「思考」、「非思考」、「自動思考」、「画像付き思考」、および高品質な動画データを含む。この混合により、モデルはいつ、どのように推論を行うかを学習する。その後、強化学習(RL)と整合性のステップを経て、これらの推論能力がさらに強化され、繰り返し出力などの異常なモデル挙動が修正される。我々のアプローチを検証するため、広範な評価を行い、Keye-VLが公開されている動画ベンチマークで最先端の結果を達成し、一般的な画像ベースのタスクにおいても高い競争力を維持することを示す(図1)。さらに、現実世界のショート動画シナリオに特化した新しいベンチマークであるKC-MMBenchを開発・公開し、Keye-VLがその中で顕著な優位性を示すことを確認した。
English
While Multimodal Large Language Models (MLLMs) demonstrate remarkable
capabilities on static images, they often fall short in comprehending dynamic,
information-dense short-form videos, a dominant medium in today's digital
landscape. To bridge this gap, we introduce Kwai Keye-VL, an
8-billion-parameter multimodal foundation model engineered for leading-edge
performance in short-video understanding while maintaining robust
general-purpose vision-language abilities. The development of Keye-VL rests on
two core pillars: a massive, high-quality dataset exceeding 600 billion tokens
with a strong emphasis on video, and an innovative training recipe. This recipe
features a four-stage pre-training process for solid vision-language alignment,
followed by a meticulous two-phase post-training process. The first
post-training stage enhances foundational capabilities like instruction
following, while the second phase focuses on stimulating advanced reasoning. In
this second phase, a key innovation is our five-mode ``cold-start'' data
mixture, which includes ``thinking'', ``non-thinking'', ``auto-think'', ``think
with image'', and high-quality video data. This mixture teaches the model to
decide when and how to reason. Subsequent reinforcement learning (RL) and
alignment steps further enhance these reasoning capabilities and correct
abnormal model behaviors, such as repetitive outputs. To validate our approach,
we conduct extensive evaluations, showing that Keye-VL achieves
state-of-the-art results on public video benchmarks and remains highly
competitive on general image-based tasks (Figure 1). Furthermore, we develop
and release the KC-MMBench, a new benchmark tailored for real-world
short-video scenarios, where Keye-VL shows a significant advantage.