OmniSIFT: Compressione Asimmetrica dei Token per Modalità per Modelli Linguistici Multimodali Efficienti

Abstract

I modelli linguistici di grandi dimensioni omnimodali (Omni-LLM) hanno dimostrato notevoli capacità nei compiti di comprensione audio-video. Tuttavia, la loro dipendenza da lunghe sequenze di token multimodali comporta un sovraccarico computazionale sostanziale. Nonostante questa sfida, i metodi di compressione dei token progettati per gli Omni-LLM rimangono limitati. Per colmare questa lacuna, proponiamo OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression), un framework di compressione asimmetrico per modalità, specificamente progettato per gli Omni-LLM. Nello specifico, OmniSIFT adotta una strategia di compressione a due stadi: (i) un modulo di potatura video spaziotemporale che rimuove la ridondanza video derivante sia dalla struttura intra-frame che dalla sovrapposizione inter-frame, e (ii) un modulo di selezione audio guidato dalla visione che filtra i token audio. L'intero framework è ottimizzato end-to-end tramite uno stimatore differenziabile straight-through. Esperimenti estesi su cinque benchmark rappresentativi ne dimostrano l'efficacia e la robustezza. In particolare, per Qwen2.5-Omni-7B, OmniSIFT introduce solo 4,85 milioni di parametri mantenendo una latenza inferiore rispetto a metodi baseline senza addestramento come OmniZip. Con appena il 25% del contesto token originale, OmniSIFT supera costantemente tutti i metodi di compressione baseline e supera persino le prestazioni del modello a token completi in diverse attività.

English

Omni-modal Large Language Models (Omni-LLMs) have demonstrated strong capabilities in audio-video understanding tasks. However, their reliance on long multimodal token sequences leads to substantial computational overhead. Despite this challenge, token compression methods designed for Omni-LLMs remain limited. To bridge this gap, we propose OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression), a modality-asymmetric token compression framework tailored for Omni-LLMs. Specifically, OmniSIFT adopts a two-stage compression strategy: (i) a spatio-temporal video pruning module that removes video redundancy arising from both intra-frame structure and inter-frame overlap, and (ii) a vision-guided audio selection module that filters audio tokens. The entire framework is optimized end-to-end via a differentiable straight-through estimator. Extensive experiments on five representative benchmarks demonstrate the efficacy and robustness of OmniSIFT. Notably, for Qwen2.5-Omni-7B, OmniSIFT introduces only 4.85M parameters while maintaining lower latency than training-free baselines such as OmniZip. With merely 25% of the original token context, OmniSIFT consistently outperforms all compression baselines and even surpasses the performance of the full-token model on several tasks.

OmniSIFT: Compressione Asimmetrica dei Token per Modalità per Modelli Linguistici Multimodali Efficienti

OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

Abstract

Support