ChatPaper.aiChatPaper

OmniSIFT : Compression Modale-Asymétrique des Tokens pour des Modèles de Langage de Grande Taille Omnipotentiels Efficients

OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

February 4, 2026
papers.authors: Yue Ding, Yiyan Ji, Jungang Li, Xuyang Liu, Xinlong Chen, Junfei Wu, Bozhou Li, Bohan Zeng, Yang Shi, Yushuo Guan, Yuanxing Zhang, Jiaheng Liu, Qiang Liu, Pengfei Wan, Liang Wang
cs.AI

papers.abstract

Les modèles de langage de grande taille omnimodaux (Omni-LLM) ont démontré de solides capacités dans les tâches de compréhension audio-vidéo. Cependant, leur dépendance à de longues séquences de jetons multimodaux entraîne une surcharge computationnelle substantielle. Malgré ce défi, les méthodes de compression de jetons conçues pour les Omni-LLM restent limitées. Pour combler cette lacune, nous proposons OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression), un cadre de compression de jetons asymétrique en modalité, spécialement conçu pour les Omni-LLM. Plus précisément, OmniSIFT adopte une stratégie de compression en deux étapes : (i) un module d'élagage vidéo spatio-temporel qui supprime la redondance vidéo provenant à la fois de la structure intra-trame et du chevauchement inter-trames, et (ii) un module de sélection audio guidé par la vision qui filtre les jetons audio. L'ensemble du cadre est optimé de bout en bout via un estimateur différentiable à passage direct. Des expériences approfondies sur cinq benchmarks représentatifs démontrent l'efficacité et la robustesse d'OmniSIFT. Notamment, pour Qwen2.5-Omni-7B, OmniSIFT n'introduit que 4,85 millions de paramètres tout en maintenant une latence inférieure à celle des méthodes de base sans apprentissage telles qu'OmniZip. Avec seulement 25 % du contexte de jetons original, OmniSIFT surpasse constamment toutes les méthodes de compression de référence et dépasse même les performances du modèle utilisant tous les jetons sur plusieurs tâches.
English
Omni-modal Large Language Models (Omni-LLMs) have demonstrated strong capabilities in audio-video understanding tasks. However, their reliance on long multimodal token sequences leads to substantial computational overhead. Despite this challenge, token compression methods designed for Omni-LLMs remain limited. To bridge this gap, we propose OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression), a modality-asymmetric token compression framework tailored for Omni-LLMs. Specifically, OmniSIFT adopts a two-stage compression strategy: (i) a spatio-temporal video pruning module that removes video redundancy arising from both intra-frame structure and inter-frame overlap, and (ii) a vision-guided audio selection module that filters audio tokens. The entire framework is optimized end-to-end via a differentiable straight-through estimator. Extensive experiments on five representative benchmarks demonstrate the efficacy and robustness of OmniSIFT. Notably, for Qwen2.5-Omni-7B, OmniSIFT introduces only 4.85M parameters while maintaining lower latency than training-free baselines such as OmniZip. With merely 25% of the original token context, OmniSIFT consistently outperforms all compression baselines and even surpasses the performance of the full-token model on several tasks.
PDF411February 6, 2026