ChatPaper.aiChatPaper

OmniSIFT: Compresión Asimétrica de Tokens por Modalidad para Modelos de Lenguaje Grande Omnimodales Eficientes

OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

February 4, 2026
Autores: Yue Ding, Yiyan Ji, Jungang Li, Xuyang Liu, Xinlong Chen, Junfei Wu, Bozhou Li, Bohan Zeng, Yang Shi, Yushuo Guan, Yuanxing Zhang, Jiaheng Liu, Qiang Liu, Pengfei Wan, Liang Wang
cs.AI

Resumen

Los Modelos de Lenguaje Grandes Omnimodales (Omni-LLM) han demostrado sólidas capacidades en tareas de comprensión audiovisual. Sin embargo, su dependencia de secuencias largas de tokens multimodales conlleva una sobrecarga computacional sustancial. A pesar de este desafío, los métodos de compresión de tokens diseñados para Omni-LLM siguen siendo limitados. Para subsanar esta carencia, proponemos OmniSIFT (Compresión de Tokens de Grano Fino con Información Espacio-Temporal Omnimodal), un marco de compresión de tokens de modalidad asimétrica diseñado específicamente para Omni-LLM. En concreto, OmniSIFT adopta una estrategia de compresión en dos etapas: (i) un módulo de poda de video espacio-temporal que elimina la redundancia del video derivada tanto de la estructura intra-cuadro como de la superposición inter-cuadros, y (ii) un módulo de selección de audio guiado por visión que filtra los tokens de audio. Todo el marco se optimiza de extremo a extremo mediante un estimador diferenciable de paso directo. Experimentos exhaustivos en cinco benchmarks representativos demuestran la eficacia y robustez de OmniSIFT. Cabe destacar que, para Qwen2.5-Omni-7B, OmniSIFT introduce solo 4.85 millones de parámetros mientras mantiene una latencia más baja que los métodos base que no requieren entrenamiento, como OmniZip. Con apenas el 25% del contexto original de tokens, OmniSIFT supera consistentemente a todos los métodos base de compresión e incluso supera el rendimiento del modelo que utiliza todos los tokens en varias tareas.
English
Omni-modal Large Language Models (Omni-LLMs) have demonstrated strong capabilities in audio-video understanding tasks. However, their reliance on long multimodal token sequences leads to substantial computational overhead. Despite this challenge, token compression methods designed for Omni-LLMs remain limited. To bridge this gap, we propose OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression), a modality-asymmetric token compression framework tailored for Omni-LLMs. Specifically, OmniSIFT adopts a two-stage compression strategy: (i) a spatio-temporal video pruning module that removes video redundancy arising from both intra-frame structure and inter-frame overlap, and (ii) a vision-guided audio selection module that filters audio tokens. The entire framework is optimized end-to-end via a differentiable straight-through estimator. Extensive experiments on five representative benchmarks demonstrate the efficacy and robustness of OmniSIFT. Notably, for Qwen2.5-Omni-7B, OmniSIFT introduces only 4.85M parameters while maintaining lower latency than training-free baselines such as OmniZip. With merely 25% of the original token context, OmniSIFT consistently outperforms all compression baselines and even surpasses the performance of the full-token model on several tasks.
PDF411February 6, 2026