비디오 큐브의 강화된 압축을 통한 효율적인 비디오 이해를 위한 LMM
An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes
April 21, 2025
저자: Ji Qi, Yuan Yao, Yushi Bai, Bin Xu, Juanzi Li, Zhiyuan Liu, Tat-Seng Chua
cs.AI
초록
대형 멀티모달 모델(LMMs)은 비디오 프레임을 균일하게 인식하므로, 시간적 정보 밀도가 본질적으로 다양한 비디오에 대해 계산 비효율성을 초래합니다. 본 논문은 Gumbel Softmax를 사용하여 비균일 밀도의 비디오를 다양한 큐브로 분할한 후, 각 큐브에 대해 통합 리샘플링을 수행하여 효율적인 비디오 이해를 달성하는 새로운 인식 패러다임을 가진 LMM인 Quicksviewer를 제시합니다. 이 간단하고 직관적인 접근 방식은 시간적 밀도에 따라 비디오를 동적으로 온라인으로 압축하여 시공간적 중복성을 크게 줄이고(전체 45배 압축률), 큰 수용 필드를 통해 효율적인 학습을 가능하게 합니다. 우리는 언어 백본을 통해 모델을 세 단계의 점진적 단계로 학습시키며, 각 단계에서는 인식 효율성 덕분에 평균 420초/1fps의 긴 비디오를 통합합니다. 총 0.8M의 비디오-텍스트 샘플만으로 학습한 우리의 모델은 고정된 분할 전략을 사용하는 직접적인 베이스라인보다 최대 8.72의 정확도 차이로 우수한 성능을 보여, 성능의 효과성을 입증합니다. Video-MME에서 Quicksviewer는 베이스라인이 필요로 하는 프레임당 토큰의 최대 5%만 사용하여 적당한 시퀀스 길이에서 SOTA를 달성합니다. 이 패러다임을 통해 입력 프레임 수를 확장하면 모델 능력의 명확한 멱법칙이 나타납니다. 또한, 큐빙 네트워크에 의해 생성된 세그먼트가 비디오의 연속적인 이벤트를 분석하는 데 도움이 될 수 있음이 실증적으로 검증되었습니다.
English
Large Multimodal Models (LMMs) uniformly perceive video frames, creating
computational inefficiency for videos with inherently varying temporal
information density. This paper present Quicksviewer, an LMM with new
perceiving paradigm that partitions a video of nonuniform density into varying
cubes using Gumbel Softmax, followed by a unified resampling for each cube to
achieve efficient video understanding. This simple and intuitive approach
dynamically compress video online based on its temporal density, significantly
reducing spatiotemporal redundancy (overall 45times compression rate), while
enabling efficient training with large receptive field. We train the model from
a language backbone through three progressive stages, each incorporating
lengthy videos on average of 420s/1fps thanks to the perceiving efficiency.
With only 0.8M total video-text samples for training, our model outperforms the
direct baseline employing a fixed partitioning strategy by a maximum of 8.72 in
accuracy, demonstrating the effectiveness in performance. On Video-MME,
Quicksviewer achieves SOTA under modest sequence lengths using just up to 5\%
of tokens per frame required by baselines. With this paradigm, scaling up the
number of input frames reveals a clear power law of the model capabilities. It
is also empirically verified that the segments generated by the cubing network
can help for analyzing continuous events in videos.Summary
AI-Generated Summary