Kwai Keye-VL Technisch Rapport

Samenvatting

Hoewel Multimodale Grote Taalmodellen (MLLMs) opmerkelijke capaciteiten vertonen bij statische afbeeldingen, schieten ze vaak tekort in het begrijpen van dynamische, informatie-dichte kortdurende video's, een dominant medium in het huidige digitale landschap. Om deze kloof te overbruggen, introduceren we Kwai Keye-VL, een multimodaal basis model met 8 miljard parameters, ontworpen voor toonaangevende prestaties in het begrijpen van korte video's, terwijl het robuuste algemene visie-taalvaardigheden behoudt. De ontwikkeling van Keye-VL rust op twee kernpijlers: een enorme, hoogwaardige dataset van meer dan 600 miljard tokens met een sterke nadruk op video, en een innovatief trainingsrecept. Dit recept omvat een vierfasig voorafgaand trainingsproces voor een solide visie-taalafstemming, gevolgd door een zorgvuldige tweefasige nafase trainingsproces. De eerste nafase trainingsfase versterkt fundamentele capaciteiten zoals het volgen van instructies, terwijl de tweede fase zich richt op het stimuleren van geavanceerd redeneren. In deze tweede fase is een belangrijke innovatie onze vijfmodus "cold-start" datamix, die "denken", "niet-denken", "auto-denken", "denken met afbeelding" en hoogwaardige videogegevens omvat. Deze mix leert het model wanneer en hoe te redeneren. Volgende versterkingsleren (RL) en afstemmingsstappen versterken deze redeneervaardigheden verder en corrigeren abnormaal modelgedrag, zoals repetitieve uitvoer. Om onze aanpak te valideren, voeren we uitgebreide evaluaties uit, waaruit blijkt dat Keye-VL state-of-the-art resultaten behaalt op openbare videobenchmarks en zeer concurrerend blijft op algemene beeldgebaseerde taken (Figuur 1). Bovendien ontwikkelen en publiceren we de KC-MMBench, een nieuwe benchmark die is afgestemd op real-world kortdurende video-scenario's, waar Keye-VL een aanzienlijk voordeel laat zien.

English

While Multimodal Large Language Models (MLLMs) demonstrate remarkable capabilities on static images, they often fall short in comprehending dynamic, information-dense short-form videos, a dominant medium in today's digital landscape. To bridge this gap, we introduce Kwai Keye-VL, an 8-billion-parameter multimodal foundation model engineered for leading-edge performance in short-video understanding while maintaining robust general-purpose vision-language abilities. The development of Keye-VL rests on two core pillars: a massive, high-quality dataset exceeding 600 billion tokens with a strong emphasis on video, and an innovative training recipe. This recipe features a four-stage pre-training process for solid vision-language alignment, followed by a meticulous two-phase post-training process. The first post-training stage enhances foundational capabilities like instruction following, while the second phase focuses on stimulating advanced reasoning. In this second phase, a key innovation is our five-mode ``cold-start'' data mixture, which includes ``thinking'', ``non-thinking'', ``auto-think'', ``think with image'', and high-quality video data. This mixture teaches the model to decide when and how to reason. Subsequent reinforcement learning (RL) and alignment steps further enhance these reasoning capabilities and correct abnormal model behaviors, such as repetitive outputs. To validate our approach, we conduct extensive evaluations, showing that Keye-VL achieves state-of-the-art results on public video benchmarks and remains highly competitive on general image-based tasks (Figure 1). Furthermore, we develop and release the KC-MMBench, a new benchmark tailored for real-world short-video scenarios, where Keye-VL shows a significant advantage.

Kwai Keye-VL Technisch Rapport

Kwai Keye-VL Technical Report

Samenvatting

Support