Mavors: Representación de Video Multigranular para Modelos de Lenguaje Multimodal a Gran Escala
Mavors: Multi-granularity Video Representation for Multimodal Large Language Model
April 14, 2025
Autores: Yang Shi, Jiaheng Liu, Yushuo Guan, Zhenhua Wu, Yuanxing Zhang, Zihao Wang, Weihong Lin, Jingyun Hua, Zekun Wang, Xinlong Chen, Bohan Zeng, Wentao Zhang, Fuzheng Zhang, Wenjing Yang, Di Zhang
cs.AI
Resumen
La comprensión de videos de contexto largo en modelos de lenguaje multimodal de gran escala (MLLMs) enfrenta un desafío crítico: equilibrar la eficiencia computacional con la retención de patrones espacio-temporales detallados. Los enfoques existentes (por ejemplo, muestreo disperso, muestreo denso con baja resolución y compresión de tokens) sufren una pérdida significativa de información en la dinámica temporal, los detalles espaciales o las interacciones sutiles, particularmente en videos con movimientos complejos o resoluciones variables. Para abordar esto, proponemos Mavors, un marco novedoso que introduce una representación de video multi-granularidad para el modelado holístico de videos largos. Específicamente, Mavors codifica directamente el contenido de video en bruto en representaciones latentes a través de dos componentes principales: 1) un Codificador Visual Intra-fragmento (IVE) que preserva características espaciales de alta resolución mediante convoluciones 3D y Transformadores Visuales, y 2) un Agregador de Características Inter-fragmento (IFA) que establece coherencia temporal entre fragmentos utilizando modelado de dependencias basado en transformadores con codificaciones de posición rotatorias a nivel de fragmento. Además, el marco unifica la comprensión de imágenes y videos al tratar las imágenes como videos de un solo fotograma mediante descomposición sub-imagen. Los experimentos en diversos benchmarks demuestran la superioridad de Mavors en mantener tanto la fidelidad espacial como la continuidad temporal, superando significativamente a los métodos existentes en tareas que requieren razonamiento espacio-temporal detallado.
English
Long-context video understanding in multimodal large language models (MLLMs)
faces a critical challenge: balancing computational efficiency with the
retention of fine-grained spatio-temporal patterns. Existing approaches (e.g.,
sparse sampling, dense sampling with low resolution, and token compression)
suffer from significant information loss in temporal dynamics, spatial details,
or subtle interactions, particularly in videos with complex motion or varying
resolutions. To address this, we propose Mavors, a novel framework
that introduces Multi-granularity
video representation for holistic
long-video modeling. Specifically, Mavors directly encodes raw video content
into latent representations through two core components: 1) an Intra-chunk
Vision Encoder (IVE) that preserves high-resolution spatial features via 3D
convolutions and Vision Transformers, and 2) an Inter-chunk Feature Aggregator
(IFA) that establishes temporal coherence across chunks using transformer-based
dependency modeling with chunk-level rotary position encodings. Moreover, the
framework unifies image and video understanding by treating images as
single-frame videos via sub-image decomposition. Experiments across diverse
benchmarks demonstrate Mavors' superiority in maintaining both spatial fidelity
and temporal continuity, significantly outperforming existing methods in tasks
requiring fine-grained spatio-temporal reasoning.Summary
AI-Generated Summary