OmniZip: 고속 올니모달 대규모 언어 모델을 위한 오디오 유도 동적 토큰 압축
OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models
November 18, 2025
저자: Keda Tao, Kele Shao, Bohan Yu, Weiqiang Wang, Jian liu, Huan Wang
cs.AI
초록
최근 오디오-비디오 통합 이해를 목표로 하는 올니모달 대규모 언어 모델(OmniLLMs)의 연구 관심이 증가하고 있으나, 오디오-비디오 토큰 시퀀스 처리 과정에서 상당한 계산 병목 현상이 발생합니다. 기존 토큰 압축 방법은 이처럼 다중 모달 토큰을 공동으로 압축해야 하는 새로운 요구를 아직 수용하지 못하고 있습니다. 이러한 격차를 해결하기 위해 본 논문은 훈련 없이도 다중 모달 토큰 표현을 최적화하고 추론 속도를 가속화하는 오디오 주도 오디오-비디오 토큰 압축 프레임워크인 OmniZip을 제안합니다. 구체적으로 OmniZip은 먼저 주요 오디오 토큰을 식별한 후, 각 시간 그룹별 오디오 보존 점수를 계산하여 정보 밀도를 파악함으로써 교차 모달 유사성으로 강화된 오디오 앵커 단서를 보존하면서 동적으로 비디오 토큰 가지치기를 안내합니다. 각 시간 창에서 OmniZip은 인터리빙된 시공간 방식으로 비디오 토큰을 압축합니다. 폭넓은 실험 결과는 OmniZip의 장점을 입증하며, 훈련 없이도 성능을 유지하면서 기타 최고 수준의 방법 대비 3.42배의 추론 가속화와 1.4배의 메모리 감소를 달성했습니다.
English
Omnimodal large language models (OmniLLMs) have attracted increasing research attention of late towards unified audio-video understanding, wherein processing audio-video token sequences creates a significant computational bottleneck, however. Existing token compression methods have yet to accommodate this emerging need of jointly compressing multimodal tokens. To bridge this gap, we present OmniZip, a training-free, audio-guided audio-visual token-compression framework that optimizes multimodal token representation and accelerates inference. Specifically, OmniZip first identifies salient audio tokens, then computes an audio retention score for each time group to capture information density, thereby dynamically guiding video token pruning and preserving cues from audio anchors enhanced by cross-modal similarity. For each time window, OmniZip compresses the video tokens using an interleaved spatio-temporal scheme. Extensive empirical results demonstrate the merits of OmniZip - it achieves 3.42X inference speedup and 1.4X memory reduction over other top-performing counterparts, while maintaining performance with no training.