Mavors: Representación de Video Multigranular para Modelos de Lenguaje Multimodal a Gran Escala

Resumen

La comprensión de videos de contexto largo en modelos de lenguaje multimodal de gran escala (MLLMs) enfrenta un desafío crítico: equilibrar la eficiencia computacional con la retención de patrones espacio-temporales detallados. Los enfoques existentes (por ejemplo, muestreo disperso, muestreo denso con baja resolución y compresión de tokens) sufren una pérdida significativa de información en la dinámica temporal, los detalles espaciales o las interacciones sutiles, particularmente en videos con movimientos complejos o resoluciones variables. Para abordar esto, proponemos Mavors, un marco novedoso que introduce una representación de video multi-granularidad para el modelado holístico de videos largos. Específicamente, Mavors codifica directamente el contenido de video en bruto en representaciones latentes a través de dos componentes principales: 1) un Codificador Visual Intra-fragmento (IVE) que preserva características espaciales de alta resolución mediante convoluciones 3D y Transformadores Visuales, y 2) un Agregador de Características Inter-fragmento (IFA) que establece coherencia temporal entre fragmentos utilizando modelado de dependencias basado en transformadores con codificaciones de posición rotatorias a nivel de fragmento. Además, el marco unifica la comprensión de imágenes y videos al tratar las imágenes como videos de un solo fotograma mediante descomposición sub-imagen. Los experimentos en diversos benchmarks demuestran la superioridad de Mavors en mantener tanto la fidelidad espacial como la continuidad temporal, superando significativamente a los métodos existentes en tareas que requieren razonamiento espacio-temporal detallado.

English

Long-context video understanding in multimodal large language models (MLLMs) faces a critical challenge: balancing computational efficiency with the retention of fine-grained spatio-temporal patterns. Existing approaches (e.g., sparse sampling, dense sampling with low resolution, and token compression) suffer from significant information loss in temporal dynamics, spatial details, or subtle interactions, particularly in videos with complex motion or varying resolutions. To address this, we propose Mavors, a novel framework that introduces Multi-granularity video representation for holistic long-video modeling. Specifically, Mavors directly encodes raw video content into latent representations through two core components: 1) an Intra-chunk Vision Encoder (IVE) that preserves high-resolution spatial features via 3D convolutions and Vision Transformers, and 2) an Inter-chunk Feature Aggregator (IFA) that establishes temporal coherence across chunks using transformer-based dependency modeling with chunk-level rotary position encodings. Moreover, the framework unifies image and video understanding by treating images as single-frame videos via sub-image decomposition. Experiments across diverse benchmarks demonstrate Mavors' superiority in maintaining both spatial fidelity and temporal continuity, significantly outperforming existing methods in tasks requiring fine-grained spatio-temporal reasoning.

Mavors: Representación de Video Multigranular para Modelos de Lenguaje Multimodal a Gran Escala

Mavors: Multi-granularity Video Representation for Multimodal Large Language Model

Resumen

Support