Arquitectura Lento-Rápido para Modelos de Lenguaje Multimodales en Video
Slow-Fast Architecture for Video Multi-Modal Large Language Models
April 2, 2025
Autores: Min Shi, Shihao Wang, Chieh-Yun Chen, Jitesh Jain, Kai Wang, Junjun Xiong, Guilin Liu, Zhiding Yu, Humphrey Shi
cs.AI
Resumen
Equilibrar la resolución temporal y el detalle espacial bajo un presupuesto computacional limitado sigue siendo un desafío clave para los modelos de lenguaje multimodal (MLLM) basados en video. Los métodos existentes suelen comprimir las representaciones de video utilizando reglas predefinidas antes de alimentarlas al LLM, lo que resulta en una pérdida irreversible de información y, a menudo, ignora las instrucciones de entrada. Para abordar esto, proponemos una arquitectura novedosa de lento-rápido que naturalmente evita esta compensación, permitiendo el uso de más fotogramas de entrada mientras se preservan los detalles espaciales. Inspirados en cómo los humanos primero hojean un video antes de enfocarse en las partes relevantes, nuestro diseño lento-rápido emplea una estrategia de doble token: 1) tokens visuales "rápidos" —un conjunto compacto de características de video comprimidas— se alimentan al LLM junto con incrustaciones de texto para proporcionar una visión general rápida; 2) tokens visuales "lentos" —características de video sin comprimir— son atendidos cruzadamente por incrustaciones de texto a través de capas decodificadoras híbridas especialmente diseñadas, permitiendo la extracción consciente de instrucciones de detalles visuales relevantes con complejidad lineal. Realizamos una exploración sistemática para optimizar tanto la arquitectura general como los componentes clave. Los experimentos muestran que nuestro modelo supera significativamente a las líneas base que solo utilizan autoatención, extendiendo la capacidad de entrada de 16 a 128 fotogramas con solo un aumento del 3% en el cómputo, y logrando una mejora promedio del 16% en cinco benchmarks de comprensión de video. Nuestro modelo de 7B alcanza un rendimiento de vanguardia entre modelos de tamaño similar. Además, nuestra arquitectura lento-rápido es un diseño plug-and-play que puede integrarse en otros MLLM de video para mejorar la eficiencia y escalabilidad.
English
Balancing temporal resolution and spatial detail under limited compute budget
remains a key challenge for video-based multi-modal large language models
(MLLMs). Existing methods typically compress video representations using
predefined rules before feeding them into the LLM, resulting in irreversible
information loss and often ignoring input instructions. To address this, we
propose a novel slow-fast architecture that naturally circumvents this
trade-off, enabling the use of more input frames while preserving spatial
details. Inspired by how humans first skim a video before focusing on relevant
parts, our slow-fast design employs a dual-token strategy: 1) "fast" visual
tokens -- a compact set of compressed video features -- are fed into the LLM
alongside text embeddings to provide a quick overview; 2) "slow" visual tokens
-- uncompressed video features -- are cross-attended by text embeddings through
specially designed hybrid decoder layers, enabling instruction-aware extraction
of relevant visual details with linear complexity. We conduct systematic
exploration to optimize both the overall architecture and key components.
Experiments show that our model significantly outperforms self-attention-only
baselines, extending the input capacity from 16 to 128 frames with just a 3%
increase in computation, and achieving a 16% average performance improvement
across five video understanding benchmarks. Our 7B model achieves
state-of-the-art performance among models of similar size. Furthermore, our
slow-fast architecture is a plug-and-play design that can be integrated into
other video MLLMs to improve efficiency and scalability.Summary
AI-Generated Summary