Arquitetura Slow-Fast para Modelos de Linguagem Multimodais em Vídeo
Slow-Fast Architecture for Video Multi-Modal Large Language Models
April 2, 2025
Autores: Min Shi, Shihao Wang, Chieh-Yun Chen, Jitesh Jain, Kai Wang, Junjun Xiong, Guilin Liu, Zhiding Yu, Humphrey Shi
cs.AI
Resumo
Equilibrar a resolução temporal e o detalhe espacial sob um orçamento computacional limitado continua sendo um desafio fundamental para modelos de linguagem grandes multimodais (MLLMs) baseados em vídeo. Os métodos existentes geralmente comprimem as representações de vídeo usando regras predefinidas antes de alimentá-las no LLM, resultando em perda irreversível de informações e frequentemente ignorando as instruções de entrada. Para resolver isso, propomos uma nova arquitetura lenta-rápida que naturalmente contorna essa compensação, permitindo o uso de mais quadros de entrada enquanto preserva os detalhes espaciais. Inspirados pela forma como os humanos primeiro dão uma olhada rápida em um vídeo antes de se concentrarem nas partes relevantes, nosso design lento-rápido emprega uma estratégia de dupla tokenização: 1) tokens visuais "rápidos" — um conjunto compacto de características de vídeo comprimidas — são alimentados no LLM junto com embeddings de texto para fornecer uma visão geral rápida; 2) tokens visuais "lentos" — características de vídeo não comprimidas — são submetidos a atenção cruzada por embeddings de texto através de camadas de decodificador híbridas especialmente projetadas, permitindo a extração de detalhes visuais relevantes com complexidade linear. Realizamos uma exploração sistemática para otimizar tanto a arquitetura geral quanto os componentes-chave. Experimentos mostram que nosso modelo supera significativamente as linhas de base que usam apenas auto-atenção, estendendo a capacidade de entrada de 16 para 128 quadros com apenas um aumento de 3% na computação, e alcançando uma melhoria média de 16% em cinco benchmarks de compreensão de vídeo. Nosso modelo de 7B atinge desempenho de ponta entre modelos de tamanho similar. Além disso, nossa arquitetura lenta-rápida é um design plug-and-play que pode ser integrado a outros MLLMs de vídeo para melhorar a eficiência e a escalabilidade.
English
Balancing temporal resolution and spatial detail under limited compute budget
remains a key challenge for video-based multi-modal large language models
(MLLMs). Existing methods typically compress video representations using
predefined rules before feeding them into the LLM, resulting in irreversible
information loss and often ignoring input instructions. To address this, we
propose a novel slow-fast architecture that naturally circumvents this
trade-off, enabling the use of more input frames while preserving spatial
details. Inspired by how humans first skim a video before focusing on relevant
parts, our slow-fast design employs a dual-token strategy: 1) "fast" visual
tokens -- a compact set of compressed video features -- are fed into the LLM
alongside text embeddings to provide a quick overview; 2) "slow" visual tokens
-- uncompressed video features -- are cross-attended by text embeddings through
specially designed hybrid decoder layers, enabling instruction-aware extraction
of relevant visual details with linear complexity. We conduct systematic
exploration to optimize both the overall architecture and key components.
Experiments show that our model significantly outperforms self-attention-only
baselines, extending the input capacity from 16 to 128 frames with just a 3%
increase in computation, and achieving a 16% average performance improvement
across five video understanding benchmarks. Our 7B model achieves
state-of-the-art performance among models of similar size. Furthermore, our
slow-fast architecture is a plug-and-play design that can be integrated into
other video MLLMs to improve efficiency and scalability.Summary
AI-Generated Summary