OmniSIFT: Modaliteit-Asymmetrische Tokencompressie voor Efficiënte Omni-modale Grote Taalmodellen
OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models
February 4, 2026
Auteurs: Yue Ding, Yiyan Ji, Jungang Li, Xuyang Liu, Xinlong Chen, Junfei Wu, Bozhou Li, Bohan Zeng, Yang Shi, Yushuo Guan, Yuanxing Zhang, Jiaheng Liu, Qiang Liu, Pengfei Wan, Liang Wang
cs.AI
Samenvatting
Omni-modale Large Language Models (Omni-LLM's) hebben sterke capaciteiten getoond in audio-video-begriptaken. Hun afhankelijkheid van lange multimodale tokensequenties leidt echter tot aanzienlijke rekenkosten. Ondanks deze uitdaging zijn tokencompressiemethoden die voor Omni-LLM's zijn ontworpen, nog beperkt. Om deze kloof te overbruggen, stellen we **OmniSIFT** voor (Omni-modal Spatio-temporal Informed Fine-grained Token compression), een modaal-asymmetrisch tokencompressieraamwerk op maat van Omni-LLM's. Concreet hanteert OmniSIFT een tweefasencompressiestrategie: (i) een spatio-temporele videoreductiemodule die redundantie verwijdert die voortkomt uit zowel intra-frame structuur als inter-frame overlap, en (ii) een visie-gestuurd audioselectiemodule die audiotokens filtert. Het gehele raamwerk wordt end-to-end geoptimaliseerd via een differentieerbare straight-through estimator. Uitgebreide experimenten op vijf representatieve benchmarks tonen de doeltreffendheid en robuustheid van OmniSIFT aan. Opmerkelijk is dat voor Qwen2.5-Omni-7B, OmniSIFT slechts 4,85M parameters introduceert terwijl een lagere latentie wordt gehandhaafd in vergelijking met trainingsvrije basismethoden zoals OmniZip. Met slechts 25% van de oorspronkelijke tokencontext presteert OmniSIFT consistent beter dan alle compressie-basismethoden en overtreft het zelfs de prestaties van het volledige tokenmodel bij verschillende taken.
English
Omni-modal Large Language Models (Omni-LLMs) have demonstrated strong capabilities in audio-video understanding tasks. However, their reliance on long multimodal token sequences leads to substantial computational overhead. Despite this challenge, token compression methods designed for Omni-LLMs remain limited. To bridge this gap, we propose OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression), a modality-asymmetric token compression framework tailored for Omni-LLMs. Specifically, OmniSIFT adopts a two-stage compression strategy: (i) a spatio-temporal video pruning module that removes video redundancy arising from both intra-frame structure and inter-frame overlap, and (ii) a vision-guided audio selection module that filters audio tokens. The entire framework is optimized end-to-end via a differentiable straight-through estimator. Extensive experiments on five representative benchmarks demonstrate the efficacy and robustness of OmniSIFT. Notably, for Qwen2.5-Omni-7B, OmniSIFT introduces only 4.85M parameters while maintaining lower latency than training-free baselines such as OmniZip. With merely 25% of the original token context, OmniSIFT consistently outperforms all compression baselines and even surpasses the performance of the full-token model on several tasks.