ChatPaper.aiChatPaper

OmniSIFT: 효율적인 올니모달 대규모 언어 모델을 위한 모달리티 비대칭 토큰 압축

OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

February 4, 2026
저자: Yue Ding, Yiyan Ji, Jungang Li, Xuyang Liu, Xinlong Chen, Junfei Wu, Bozhou Li, Bohan Zeng, Yang Shi, Yushuo Guan, Yuanxing Zhang, Jiaheng Liu, Qiang Liu, Pengfei Wan, Liang Wang
cs.AI

초록

Omni-modal 대규모 언어 모델(Omni-LLM)은 오디오-비디오 이해 작업에서 강력한 능력을 입증했습니다. 그러나 긴 멀티모달 토큰 시퀀스에 대한 의존도는 상당한 계산 오버헤드를 초래합니다. 이러한 어려움에도 불구하고 Omni-LLM을 위해 설계된 토큰 압축 방법은 여전히 제한적입니다. 이러한 격차를 해소하기 위해 우리는 Omni-LLM에 맞춤화된 모달리티 비대칭 토큰 압축 프레임워크인 OmniSIFT(Omni-modal Spatio-temporal Informed Fine-grained Token compression)를 제안합니다. 구체적으로 OmniSIFT는 두 단계의 압축 전략을 채택합니다: (i) 프레임 내 구조와 프레임 간 중복으로 인해 발생하는 비디오 중복성을 제거하는 시공간 비디오 프루닝 모듈과 (ii) 오디오 토큰을 필터링하는 비전 기반 오디오 선택 모듈입니다. 전체 프레임워크는 미분 가능한 스트레이트-스루 추정기를 통해 end-to-end로 최적화됩니다. 5개의 대표적인 벤치마크에 대한 광범위한 실험을 통해 OmniSIFT의 효율성과 견고성을 입증했습니다. 특히 Qwen2.5-Omni-7B의 경우, OmniSIFT는 OmniZip과 같은 훈련 없는 베이스라인보다 낮은 지연 시간을 유지하면서 4.85M개의 매개변수만 추가합니다. 원본 토큰 컨텍스트의 25%만 사용하여 OmniSIFT는 모든 압축 베이스라인을 꾸준히 능가하며 여러 작업에서 전체 토큰 모델의 성능을 넘어서기도 합니다.
English
Omni-modal Large Language Models (Omni-LLMs) have demonstrated strong capabilities in audio-video understanding tasks. However, their reliance on long multimodal token sequences leads to substantial computational overhead. Despite this challenge, token compression methods designed for Omni-LLMs remain limited. To bridge this gap, we propose OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression), a modality-asymmetric token compression framework tailored for Omni-LLMs. Specifically, OmniSIFT adopts a two-stage compression strategy: (i) a spatio-temporal video pruning module that removes video redundancy arising from both intra-frame structure and inter-frame overlap, and (ii) a vision-guided audio selection module that filters audio tokens. The entire framework is optimized end-to-end via a differentiable straight-through estimator. Extensive experiments on five representative benchmarks demonstrate the efficacy and robustness of OmniSIFT. Notably, for Qwen2.5-Omni-7B, OmniSIFT introduces only 4.85M parameters while maintaining lower latency than training-free baselines such as OmniZip. With merely 25% of the original token context, OmniSIFT consistently outperforms all compression baselines and even surpasses the performance of the full-token model on several tasks.
PDF411February 6, 2026