OmniSIFT:効率的な全モーダル大規模言語モデルのためのモダリティ非対称トークン圧縮
OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models
February 4, 2026
著者: Yue Ding, Yiyan Ji, Jungang Li, Xuyang Liu, Xinlong Chen, Junfei Wu, Bozhou Li, Bohan Zeng, Yang Shi, Yushuo Guan, Yuanxing Zhang, Jiaheng Liu, Qiang Liu, Pengfei Wan, Liang Wang
cs.AI
要旨
オムニモーダル大規模言語モデル(Omni-LLM)は、音声・映像理解タスクにおいて優れた能力を発揮している。しかし、長いマルチモーダルトークン系列への依存性から、計算コストが大幅に増大するという課題がある。この課題にもかかわらず、Omni-LLM向けに設計されたトークン圧縮手法は限られている。このギャップを埋めるため、我々はOmni-LLMに特化したモダリティ非対称トークン圧縮フレームワーク「OmniSIFT(Omni-modal Spatio-temporal Informed Fine-grained Token compression)」を提案する。具体的には、OmniSIFTは2段階の圧縮戦略を採用する:(i)フレーム内構造とフレーム間重複に起因する映像の冗長性を除去する時空間映像プルーニングモジュール、(ii)音声トークンをフィルタリングする視覚誘導型音声選択モジュールである。フレームワーク全体は微分可能なストレートスルー推定量を用いてエンドツーエンドで最適化される。5つの代表的なベンチマークによる大規模実験により、OmniSIFTの有効性と頑健性が実証された。特にQwen2.5-Omni-7Bでは、OmniSIFTはわずか485万パラメータを追加するだけで、OmniZipのような訓練不要ベースラインよりも低遅延を維持した。元のトークンコンテキストの25%のみを使用する条件下で、OmniSIFTは全ての圧縮ベースラインを一貫して上回り、いくつかのタスクでは全トークンモデルの性能すら凌駕する結果を示した。
English
Omni-modal Large Language Models (Omni-LLMs) have demonstrated strong capabilities in audio-video understanding tasks. However, their reliance on long multimodal token sequences leads to substantial computational overhead. Despite this challenge, token compression methods designed for Omni-LLMs remain limited. To bridge this gap, we propose OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression), a modality-asymmetric token compression framework tailored for Omni-LLMs. Specifically, OmniSIFT adopts a two-stage compression strategy: (i) a spatio-temporal video pruning module that removes video redundancy arising from both intra-frame structure and inter-frame overlap, and (ii) a vision-guided audio selection module that filters audio tokens. The entire framework is optimized end-to-end via a differentiable straight-through estimator. Extensive experiments on five representative benchmarks demonstrate the efficacy and robustness of OmniSIFT. Notably, for Qwen2.5-Omni-7B, OmniSIFT introduces only 4.85M parameters while maintaining lower latency than training-free baselines such as OmniZip. With merely 25% of the original token context, OmniSIFT consistently outperforms all compression baselines and even surpasses the performance of the full-token model on several tasks.