Mavors: 멀티모달 대규모 언어 모델을 위한 다중 세분화 비디오 표현
Mavors: Multi-granularity Video Representation for Multimodal Large Language Model
April 14, 2025
저자: Yang Shi, Jiaheng Liu, Yushuo Guan, Zhenhua Wu, Yuanxing Zhang, Zihao Wang, Weihong Lin, Jingyun Hua, Zekun Wang, Xinlong Chen, Bohan Zeng, Wentao Zhang, Fuzheng Zhang, Wenjing Yang, Di Zhang
cs.AI
초록
다중모드 대형 언어 모델(MLLM)에서의 장기간 비디오 이해는 계산 효율성과 세밀한 시공간 패턴 보존 사이의 균형을 맞추는 중요한 과제에 직면해 있습니다. 기존 접근 방식(예: 희소 샘플링, 저해상도의 조밀 샘플링, 토큰 압축 등)은 복잡한 움직임이나 다양한 해상도를 가진 비디오에서 특히 시간적 동역학, 공간적 세부 사항 또는 미묘한 상호작용에서 상당한 정보 손실을 겪습니다. 이를 해결하기 위해, 우리는 Multi-granularity 비디오 표현을 도입하여 전체적인 장기간 비디오 모델링을 가능하게 하는 새로운 프레임워크인 Mavors를 제안합니다. 구체적으로, Mavors는 두 가지 핵심 구성 요소를 통해 원시 비디오 콘텐츠를 잠재 표현으로 직접 인코딩합니다: 1) 3D 컨볼루션과 Vision Transformer를 통해 고해상도 공간 특징을 보존하는 Intra-chunk Vision Encoder(IVE), 그리고 2) 청크 수준의 회전 위치 인코딩을 사용한 Transformer 기반 종속성 모델링을 통해 청크 간의 시간적 일관성을 확립하는 Inter-chunk Feature Aggregator(IFA). 또한, 이 프레임워크는 이미지를 단일 프레임 비디오로 취급하여 서브 이미지 분해를 통해 이미지와 비디오 이해를 통합합니다. 다양한 벤치마크에서의 실험은 Mavors가 공간적 충실도와 시간적 연속성을 모두 유지하는 데 있어 기존 방법들을 크게 능가하며, 세밀한 시공간 추론이 필요한 작업에서 우수한 성능을 보여줍니다.
English
Long-context video understanding in multimodal large language models (MLLMs)
faces a critical challenge: balancing computational efficiency with the
retention of fine-grained spatio-temporal patterns. Existing approaches (e.g.,
sparse sampling, dense sampling with low resolution, and token compression)
suffer from significant information loss in temporal dynamics, spatial details,
or subtle interactions, particularly in videos with complex motion or varying
resolutions. To address this, we propose Mavors, a novel framework
that introduces Multi-granularity
video representation for holistic
long-video modeling. Specifically, Mavors directly encodes raw video content
into latent representations through two core components: 1) an Intra-chunk
Vision Encoder (IVE) that preserves high-resolution spatial features via 3D
convolutions and Vision Transformers, and 2) an Inter-chunk Feature Aggregator
(IFA) that establishes temporal coherence across chunks using transformer-based
dependency modeling with chunk-level rotary position encodings. Moreover, the
framework unifies image and video understanding by treating images as
single-frame videos via sub-image decomposition. Experiments across diverse
benchmarks demonstrate Mavors' superiority in maintaining both spatial fidelity
and temporal continuity, significantly outperforming existing methods in tasks
requiring fine-grained spatio-temporal reasoning.Summary
AI-Generated Summary