OmniSIFT: Compressione Asimmetrica dei Token per Modalità per Modelli Linguistici Multimodali Efficienti
OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models
February 4, 2026
Autori: Yue Ding, Yiyan Ji, Jungang Li, Xuyang Liu, Xinlong Chen, Junfei Wu, Bozhou Li, Bohan Zeng, Yang Shi, Yushuo Guan, Yuanxing Zhang, Jiaheng Liu, Qiang Liu, Pengfei Wan, Liang Wang
cs.AI
Abstract
I modelli linguistici di grandi dimensioni omnimodali (Omni-LLM) hanno dimostrato notevoli capacità nei compiti di comprensione audio-video. Tuttavia, la loro dipendenza da lunghe sequenze di token multimodali comporta un sovraccarico computazionale sostanziale. Nonostante questa sfida, i metodi di compressione dei token progettati per gli Omni-LLM rimangono limitati. Per colmare questa lacuna, proponiamo OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression), un framework di compressione asimmetrico per modalità, specificamente progettato per gli Omni-LLM. Nello specifico, OmniSIFT adotta una strategia di compressione a due stadi: (i) un modulo di potatura video spaziotemporale che rimuove la ridondanza video derivante sia dalla struttura intra-frame che dalla sovrapposizione inter-frame, e (ii) un modulo di selezione audio guidato dalla visione che filtra i token audio. L'intero framework è ottimizzato end-to-end tramite uno stimatore differenziabile straight-through. Esperimenti estesi su cinque benchmark rappresentativi ne dimostrano l'efficacia e la robustezza. In particolare, per Qwen2.5-Omni-7B, OmniSIFT introduce solo 4,85 milioni di parametri mantenendo una latenza inferiore rispetto a metodi baseline senza addestramento come OmniZip. Con appena il 25% del contesto token originale, OmniSIFT supera costantemente tutti i metodi di compressione baseline e supera persino le prestazioni del modello a token completi in diverse attività.
English
Omni-modal Large Language Models (Omni-LLMs) have demonstrated strong capabilities in audio-video understanding tasks. However, their reliance on long multimodal token sequences leads to substantial computational overhead. Despite this challenge, token compression methods designed for Omni-LLMs remain limited. To bridge this gap, we propose OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression), a modality-asymmetric token compression framework tailored for Omni-LLMs. Specifically, OmniSIFT adopts a two-stage compression strategy: (i) a spatio-temporal video pruning module that removes video redundancy arising from both intra-frame structure and inter-frame overlap, and (ii) a vision-guided audio selection module that filters audio tokens. The entire framework is optimized end-to-end via a differentiable straight-through estimator. Extensive experiments on five representative benchmarks demonstrate the efficacy and robustness of OmniSIFT. Notably, for Qwen2.5-Omni-7B, OmniSIFT introduces only 4.85M parameters while maintaining lower latency than training-free baselines such as OmniZip. With merely 25% of the original token context, OmniSIFT consistently outperforms all compression baselines and even surpasses the performance of the full-token model on several tasks.