Langzaam-Snel Architectuur voor Video Multi-Modale Grote Taalmodellen

Samenvatting

Het balanceren van temporele resolutie en ruimtelijk detail binnen een beperkt rekenbudget blijft een belangrijke uitdaging voor video-gebaseerde multimodale grote taalmodellen (MLLMs). Bestaande methoden comprimeren doorgaans videorepresentaties met behulp van vooraf gedefinieerde regels voordat ze in het LLM worden gevoerd, wat resulteert in onomkeerbaar informatieverlies en vaak het negeren van invoerinstructies. Om dit aan te pakken, stellen we een nieuwe slow-fast architectuur voor die deze afweging van nature omzeilt, waardoor het gebruik van meer invoerframes mogelijk wordt terwijl ruimtelijke details behouden blijven. Geïnspireerd door hoe mensen eerst een video scannen voordat ze zich op relevante delen concentreren, maakt ons slow-fast ontwerp gebruik van een dual-token strategie: 1) "snelle" visuele tokens — een compacte set gecomprimeerde videokenmerken — worden samen met tekstembeddingen in het LLM gevoerd om een snel overzicht te bieden; 2) "langzame" visuele tokens — ongecomprimeerde videokenmerken — worden door tekstembeddingen gekruist geattendeerd via speciaal ontworpen hybride decoderlagen, waardoor instructiebewuste extractie van relevante visuele details met lineaire complexiteit mogelijk wordt. We voeren een systematische verkenning uit om zowel de algehele architectuur als de belangrijkste componenten te optimaliseren. Experimenten tonen aan dat ons model aanzienlijk beter presteert dan baseline-modellen die alleen zelf-attentie gebruiken, waarbij de invoercapaciteit wordt uitgebreid van 16 naar 128 frames met slechts een toename van 3% in rekenkracht, en een gemiddelde prestatieverbetering van 16% wordt behaald over vijf benchmarks voor videobegrip. Ons 7B-model behaalt state-of-the-art prestaties onder modellen van vergelijkbare grootte. Bovendien is onze slow-fast architectuur een plug-and-play ontwerp dat kan worden geïntegreerd in andere video-MLLMs om efficiëntie en schaalbaarheid te verbeteren.

English

Balancing temporal resolution and spatial detail under limited compute budget remains a key challenge for video-based multi-modal large language models (MLLMs). Existing methods typically compress video representations using predefined rules before feeding them into the LLM, resulting in irreversible information loss and often ignoring input instructions. To address this, we propose a novel slow-fast architecture that naturally circumvents this trade-off, enabling the use of more input frames while preserving spatial details. Inspired by how humans first skim a video before focusing on relevant parts, our slow-fast design employs a dual-token strategy: 1) "fast" visual tokens -- a compact set of compressed video features -- are fed into the LLM alongside text embeddings to provide a quick overview; 2) "slow" visual tokens -- uncompressed video features -- are cross-attended by text embeddings through specially designed hybrid decoder layers, enabling instruction-aware extraction of relevant visual details with linear complexity. We conduct systematic exploration to optimize both the overall architecture and key components. Experiments show that our model significantly outperforms self-attention-only baselines, extending the input capacity from 16 to 128 frames with just a 3% increase in computation, and achieving a 16% average performance improvement across five video understanding benchmarks. Our 7B model achieves state-of-the-art performance among models of similar size. Furthermore, our slow-fast architecture is a plug-and-play design that can be integrated into other video MLLMs to improve efficiency and scalability.

Langzaam-Snel Architectuur voor Video Multi-Modale Grote Taalmodellen

Slow-Fast Architecture for Video Multi-Modal Large Language Models

Samenvatting

Support