OmniSIFT: Модально-асимметричное сжатие токенов для эффективных омнимодальных больших языковых моделей
OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models
February 4, 2026
Авторы: Yue Ding, Yiyan Ji, Jungang Li, Xuyang Liu, Xinlong Chen, Junfei Wu, Bozhou Li, Bohan Zeng, Yang Shi, Yushuo Guan, Yuanxing Zhang, Jiaheng Liu, Qiang Liu, Pengfei Wan, Liang Wang
cs.AI
Аннотация
Омни-модальные большие языковые модели (Omni-LLM) продемонстрировали высокие способности в задачах аудио-видео понимания. Однако их зависимость от длинных мультимодальных последовательностей токенов приводит к значительным вычислительным затратам. Несмотря на эту проблему, методы сжатия токенов, разработанные специально для Omni-LLM, остаются ограниченными. Чтобы заполнить этот пробел, мы предлагаем OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression) — асимметричную по модальностям структуру сжатия токенов, адаптированную для Omni-LLM. В частности, OmniSIFT использует двухэтапную стратегию сжатия: (i) модуль пространственно-временного сокращения видео, который удаляет избыточность, вызванную как внутрикадровой структурой, так и межкадровым перекрытием, и (ii) модуль визуально-управляемого отбора аудио токенов, который фильтрует аудио токены. Вся структура оптимизируется сквозным образом с помощью дифференцируемого прямого оценщика. Многочисленные эксперименты на пяти репрезентативных тестовых наборах демонстрируют эффективность и надежность OmniSIFT. Примечательно, что для Qwen2.5-Omni-7B OmniSIFT вводит всего 4.85 млн параметров, сохраняя при этом более низкую задержку по сравнению с бесплатными базовыми методами, такими как OmniZip. Используя всего 25% исходного контекста токенов, OmniSIFT стабильно превосходит все базовые методы сжатия и даже превышает производительность модели с полным набором токенов в нескольких задачах.
English
Omni-modal Large Language Models (Omni-LLMs) have demonstrated strong capabilities in audio-video understanding tasks. However, their reliance on long multimodal token sequences leads to substantial computational overhead. Despite this challenge, token compression methods designed for Omni-LLMs remain limited. To bridge this gap, we propose OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression), a modality-asymmetric token compression framework tailored for Omni-LLMs. Specifically, OmniSIFT adopts a two-stage compression strategy: (i) a spatio-temporal video pruning module that removes video redundancy arising from both intra-frame structure and inter-frame overlap, and (ii) a vision-guided audio selection module that filters audio tokens. The entire framework is optimized end-to-end via a differentiable straight-through estimator. Extensive experiments on five representative benchmarks demonstrate the efficacy and robustness of OmniSIFT. Notably, for Qwen2.5-Omni-7B, OmniSIFT introduces only 4.85M parameters while maintaining lower latency than training-free baselines such as OmniZip. With merely 25% of the original token context, OmniSIFT consistently outperforms all compression baselines and even surpasses the performance of the full-token model on several tasks.