ChatPaper.aiChatPaper

OmniZip:高速全モーダル大規模言語モデルのための音声誘導型動的トークン圧縮

OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models

November 18, 2025
著者: Keda Tao, Kele Shao, Bohan Yu, Weiqiang Wang, Jian liu, Huan Wang
cs.AI

要旨

オムニモーダル大規模言語モデル(OmniLLMs)は、近年、統合的な音声-映像理解に向けて研究の関心が高まっている。しかし、音声-映像トークン系列を処理する際には、計算上の大きなボトルネックが生じる。既存のトークン圧縮手法は、この新たな要求であるマルチモーダルトークンの共同圧縮に対応できていない。このギャップを埋めるため、本論文ではOmniZipを提案する。これは学習不要な、音声誘導型の音声-視覚トークン圧縮フレームワークであり、マルチモーダルトークン表現を最適化し、推論を高速化する。具体的には、OmniZipはまず salient な音声トークンを特定し、各時間グループに対して音声保持スコアを計算して情報密度を捉える。これにより、映像トークンの剪定を動的に誘導し、クロスモーダル類似性によって強化された音声アンカーからの手がかりを保持する。各時間ウィンドウにおいて、OmniZipはインタリーブされた時空間スキームを用いて映像トークンを圧縮する。大規模な実験結果は、OmniZipの利点を示している。すなわち、他の高性能な手法と比較して、3.42倍の推論高速化と1.4倍のメモリ削減を達成し、性能を維持したまま、学習を必要としない。
English
Omnimodal large language models (OmniLLMs) have attracted increasing research attention of late towards unified audio-video understanding, wherein processing audio-video token sequences creates a significant computational bottleneck, however. Existing token compression methods have yet to accommodate this emerging need of jointly compressing multimodal tokens. To bridge this gap, we present OmniZip, a training-free, audio-guided audio-visual token-compression framework that optimizes multimodal token representation and accelerates inference. Specifically, OmniZip first identifies salient audio tokens, then computes an audio retention score for each time group to capture information density, thereby dynamically guiding video token pruning and preserving cues from audio anchors enhanced by cross-modal similarity. For each time window, OmniZip compresses the video tokens using an interleaved spatio-temporal scheme. Extensive empirical results demonstrate the merits of OmniZip - it achieves 3.42X inference speedup and 1.4X memory reduction over other top-performing counterparts, while maintaining performance with no training.
PDF172December 1, 2025