ChatPaper.aiChatPaper

OmniSIFT: Modalitäts-asymmetrische Token-Kompression für effiziente omni-modale große Sprachmodelle

OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

February 4, 2026
papers.authors: Yue Ding, Yiyan Ji, Jungang Li, Xuyang Liu, Xinlong Chen, Junfei Wu, Bozhou Li, Bohan Zeng, Yang Shi, Yushuo Guan, Yuanxing Zhang, Jiaheng Liu, Qiang Liu, Pengfei Wan, Liang Wang
cs.AI

papers.abstract

Omni-modale Large Language Models (Omni-LLMs) haben beeindruckende Fähigkeiten bei Audio-Video-Verständnisaufgaben demonstriert. Allerdings führt ihre Abhängigkeit von langen multimodalen Token-Sequenzen zu erheblichem Rechenaufwand. Trotz dieser Herausgabe sind Token-Kompressionsmethoden für Omni-LLMs nach wie vor begrenzt. Um diese Lücke zu schließen, schlagen wir OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression) vor, einen modalitätsasymmetrischen Token-Kompressionsrahmen, der speziell für Omni-LLMs entwickelt wurde. Konkret verfolgt OmniSIFT eine Zwei-Stufen-Kompressionsstrategie: (i) ein räumlich-zeitliches Video-Bereinigungsmodul, das Redundanzen entfernt, die sowohl aus der Intra-Frame-Struktur als auch aus der Inter-Frame-Überlappung entstehen, und (ii) ein visuell gesteuertes Audio-Auswahlmodul, das Audio-Token filtert. Der gesamte Rahmen wird end-to-end über einen differenzierbaren Straight-Through-Estimator optimiert. Umfangreiche Experimente auf fünf repräsentativen Benchmarks belegen die Wirksamkeit und Robustheit von OmniSIFT. Bemerkenswerterweise führt OmniSIFT für Qwen2.5-Omni-7B nur 4,85 Mio. Parameter ein, bei gleichzeitig geringerer Latenz als trainingsfreie Baselines wie OmniZip. Mit nur 25 % des ursprünglichen Token-Kontexts übertrifft OmniSIFT durchgängig alle Kompressions-Baselines und übertrifft sogar die Leistung des Voll-Token-Modells bei mehreren Aufgaben.
English
Omni-modal Large Language Models (Omni-LLMs) have demonstrated strong capabilities in audio-video understanding tasks. However, their reliance on long multimodal token sequences leads to substantial computational overhead. Despite this challenge, token compression methods designed for Omni-LLMs remain limited. To bridge this gap, we propose OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression), a modality-asymmetric token compression framework tailored for Omni-LLMs. Specifically, OmniSIFT adopts a two-stage compression strategy: (i) a spatio-temporal video pruning module that removes video redundancy arising from both intra-frame structure and inter-frame overlap, and (ii) a vision-guided audio selection module that filters audio tokens. The entire framework is optimized end-to-end via a differentiable straight-through estimator. Extensive experiments on five representative benchmarks demonstrate the efficacy and robustness of OmniSIFT. Notably, for Qwen2.5-Omni-7B, OmniSIFT introduces only 4.85M parameters while maintaining lower latency than training-free baselines such as OmniZip. With merely 25% of the original token context, OmniSIFT consistently outperforms all compression baselines and even surpasses the performance of the full-token model on several tasks.
PDF411February 6, 2026