Mavors: Representação de Vídeo Multigranular para Modelos de Linguagem Multimodais de Grande Escala
Mavors: Multi-granularity Video Representation for Multimodal Large Language Model
April 14, 2025
Autores: Yang Shi, Jiaheng Liu, Yushuo Guan, Zhenhua Wu, Yuanxing Zhang, Zihao Wang, Weihong Lin, Jingyun Hua, Zekun Wang, Xinlong Chen, Bohan Zeng, Wentao Zhang, Fuzheng Zhang, Wenjing Yang, Di Zhang
cs.AI
Resumo
A compreensão de vídeos de longo contexto em modelos de linguagem multimodal de grande escala (MLLMs) enfrenta um desafio crítico: equilibrar a eficiência computacional com a retenção de padrões espaço-temporais detalhados. As abordagens existentes (por exemplo, amostragem esparsa, amostragem densa com baixa resolução e compressão de tokens) sofrem com perda significativa de informações nas dinâmicas temporais, detalhes espaciais ou interações sutis, especialmente em vídeos com movimentos complexos ou resoluções variadas. Para resolver isso, propomos o Mavors, um novo framework que introduz uma representação de vídeo multi-granularidade para modelagem holística de vídeos longos. Especificamente, o Mavors codifica diretamente o conteúdo bruto do vídeo em representações latentes por meio de dois componentes principais: 1) um Codificador Visual Intra-bloco (IVE) que preserva características espaciais de alta resolução por meio de convoluções 3D e Transformers Visuais, e 2) um Agregador de Características Inter-bloco (IFA) que estabelece coerência temporal entre blocos usando modelagem de dependência baseada em transformers com codificações de posição rotativa em nível de bloco. Além disso, o framework unifica a compreensão de imagens e vídeos tratando imagens como vídeos de quadro único por meio de decomposição de sub-imagens. Experimentos em diversos benchmarks demonstram a superioridade do Mavors em manter tanto a fidelidade espacial quanto a continuidade temporal, superando significativamente os métodos existentes em tarefas que exigem raciocínio espaço-temporal detalhado.
English
Long-context video understanding in multimodal large language models (MLLMs)
faces a critical challenge: balancing computational efficiency with the
retention of fine-grained spatio-temporal patterns. Existing approaches (e.g.,
sparse sampling, dense sampling with low resolution, and token compression)
suffer from significant information loss in temporal dynamics, spatial details,
or subtle interactions, particularly in videos with complex motion or varying
resolutions. To address this, we propose Mavors, a novel framework
that introduces Multi-granularity
video representation for holistic
long-video modeling. Specifically, Mavors directly encodes raw video content
into latent representations through two core components: 1) an Intra-chunk
Vision Encoder (IVE) that preserves high-resolution spatial features via 3D
convolutions and Vision Transformers, and 2) an Inter-chunk Feature Aggregator
(IFA) that establishes temporal coherence across chunks using transformer-based
dependency modeling with chunk-level rotary position encodings. Moreover, the
framework unifies image and video understanding by treating images as
single-frame videos via sub-image decomposition. Experiments across diverse
benchmarks demonstrate Mavors' superiority in maintaining both spatial fidelity
and temporal continuity, significantly outperforming existing methods in tasks
requiring fine-grained spatio-temporal reasoning.Summary
AI-Generated Summary