Arquitectura Lento-Rápido para Modelos de Lenguaje Multimodales en Video

Resumen

Equilibrar la resolución temporal y el detalle espacial bajo un presupuesto computacional limitado sigue siendo un desafío clave para los modelos de lenguaje multimodal (MLLM) basados en video. Los métodos existentes suelen comprimir las representaciones de video utilizando reglas predefinidas antes de alimentarlas al LLM, lo que resulta en una pérdida irreversible de información y, a menudo, ignora las instrucciones de entrada. Para abordar esto, proponemos una arquitectura novedosa de lento-rápido que naturalmente evita esta compensación, permitiendo el uso de más fotogramas de entrada mientras se preservan los detalles espaciales. Inspirados en cómo los humanos primero hojean un video antes de enfocarse en las partes relevantes, nuestro diseño lento-rápido emplea una estrategia de doble token: 1) tokens visuales "rápidos" —un conjunto compacto de características de video comprimidas— se alimentan al LLM junto con incrustaciones de texto para proporcionar una visión general rápida; 2) tokens visuales "lentos" —características de video sin comprimir— son atendidos cruzadamente por incrustaciones de texto a través de capas decodificadoras híbridas especialmente diseñadas, permitiendo la extracción consciente de instrucciones de detalles visuales relevantes con complejidad lineal. Realizamos una exploración sistemática para optimizar tanto la arquitectura general como los componentes clave. Los experimentos muestran que nuestro modelo supera significativamente a las líneas base que solo utilizan autoatención, extendiendo la capacidad de entrada de 16 a 128 fotogramas con solo un aumento del 3% en el cómputo, y logrando una mejora promedio del 16% en cinco benchmarks de comprensión de video. Nuestro modelo de 7B alcanza un rendimiento de vanguardia entre modelos de tamaño similar. Además, nuestra arquitectura lento-rápido es un diseño plug-and-play que puede integrarse en otros MLLM de video para mejorar la eficiencia y escalabilidad.

English

Balancing temporal resolution and spatial detail under limited compute budget remains a key challenge for video-based multi-modal large language models (MLLMs). Existing methods typically compress video representations using predefined rules before feeding them into the LLM, resulting in irreversible information loss and often ignoring input instructions. To address this, we propose a novel slow-fast architecture that naturally circumvents this trade-off, enabling the use of more input frames while preserving spatial details. Inspired by how humans first skim a video before focusing on relevant parts, our slow-fast design employs a dual-token strategy: 1) "fast" visual tokens -- a compact set of compressed video features -- are fed into the LLM alongside text embeddings to provide a quick overview; 2) "slow" visual tokens -- uncompressed video features -- are cross-attended by text embeddings through specially designed hybrid decoder layers, enabling instruction-aware extraction of relevant visual details with linear complexity. We conduct systematic exploration to optimize both the overall architecture and key components. Experiments show that our model significantly outperforms self-attention-only baselines, extending the input capacity from 16 to 128 frames with just a 3% increase in computation, and achieving a 16% average performance improvement across five video understanding benchmarks. Our 7B model achieves state-of-the-art performance among models of similar size. Furthermore, our slow-fast architecture is a plug-and-play design that can be integrated into other video MLLMs to improve efficiency and scalability.

Arquitectura Lento-Rápido para Modelos de Lenguaje Multimodales en Video

Slow-Fast Architecture for Video Multi-Modal Large Language Models

Resumen

Support