ChatPaper.aiChatPaper

OmniSIFT: Compressão Assimétrica de Tokens por Modalidade para Modelos de Linguagem Grandes Omnidimensionais Eficientes

OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

February 4, 2026
Autores: Yue Ding, Yiyan Ji, Jungang Li, Xuyang Liu, Xinlong Chen, Junfei Wu, Bozhou Li, Bohan Zeng, Yang Shi, Yushuo Guan, Yuanxing Zhang, Jiaheng Liu, Qiang Liu, Pengfei Wan, Liang Wang
cs.AI

Resumo

Os Modelos de Linguagem de Grande Porte Omni-modais (Omni-LLMs) têm demonstrado capacidades robustas em tarefas de compreensão áudio-visual. No entanto, a sua dependência de longas sequências de tokens multimodais resulta em uma sobrecarga computacional substancial. Apesar deste desafio, os métodos de compressão de tokens concebidos para Omni-LLMs permanecem limitados. Para colmatar esta lacuna, propomos o OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression), uma estrutura de compressão de tokens assimétrica em termos de modalidade, especialmente concebida para Omni-LLMs. Especificamente, o OmniSIFT adopta uma estratégia de compressão em duas etapas: (i) um módulo de poda de vídeo espaço-temporal que remove a redundância vídeo decorrente da estrutura intra-frame e da sobreposição inter-frame, e (ii) um módulo de seleção de áudio guiado por visão que filtra os tokens de áudio. Toda a estrutura é otimizada de ponta a ponta (*end-to-end*) através de um estimador diferenciável de passagem direta (*straight-through estimator*). Experiências extensas em cinco *benchmarks* representativos demonstram a eficácia e robustez do OmniSIFT. De forma notável, para o Qwen2.5-Omni-7B, o OmniSIFT introduz apenas 4,85 milhões de parâmetros, mantendo uma latência inferior à de linhas de base sem treino, como o OmniZip. Com apenas 25% do contexto original de tokens, o OmniSIFT supera consistentemente todas as linhas de base de compressão e até excede o desempenho do modelo com todos os tokens em várias tarefas.
English
Omni-modal Large Language Models (Omni-LLMs) have demonstrated strong capabilities in audio-video understanding tasks. However, their reliance on long multimodal token sequences leads to substantial computational overhead. Despite this challenge, token compression methods designed for Omni-LLMs remain limited. To bridge this gap, we propose OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression), a modality-asymmetric token compression framework tailored for Omni-LLMs. Specifically, OmniSIFT adopts a two-stage compression strategy: (i) a spatio-temporal video pruning module that removes video redundancy arising from both intra-frame structure and inter-frame overlap, and (ii) a vision-guided audio selection module that filters audio tokens. The entire framework is optimized end-to-end via a differentiable straight-through estimator. Extensive experiments on five representative benchmarks demonstrate the efficacy and robustness of OmniSIFT. Notably, for Qwen2.5-Omni-7B, OmniSIFT introduces only 4.85M parameters while maintaining lower latency than training-free baselines such as OmniZip. With merely 25% of the original token context, OmniSIFT consistently outperforms all compression baselines and even surpasses the performance of the full-token model on several tasks.
PDF443February 8, 2026