OmniZip: Audio-geführte dynamische Token-Kompression für schnelle omnimodale Large Language Models
OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models
November 18, 2025
papers.authors: Keda Tao, Kele Shao, Bohan Yu, Weiqiang Wang, Jian liu, Huan Wang
cs.AI
papers.abstract
Omnimonale Large Language Models (OmniLLMs) haben in letzter Zeit zunehmend Forschungsinteresse für ein vereinheitlichtes Audio-Video-Verständnis geweckt, wobei die Verarbeitung von Audio-Video-Token-Sequenzen jedoch einen erheblichen rechnerischen Engpass darstellt. Bisherige Token-Kompressionsverfahren sind den neu entstehenden Bedarf einer gemeinsamen Komprimierung multimodaler Token noch nicht gerecht geworden. Um diese Lücke zu schließen, stellen wir OmniZip vor, ein trainingsfreies, audiogeführtes audiovisuelles Token-Kompressionsframework, das die multimodale Token-Repräsentation optimiert und die Inferenz beschleunigt. Konkret identifiziert OmniZip zunächst saliente Audio-Token, berechnet dann für jede Zeitsgruppe einen Audio-Beibehaltungswert, um die Informationsdichte zu erfassen, und leitet dadurch dynamisch das Ausdünnen von Video-Token an, wobei Hinweise von durch cross-modale Ähnlichkeit verstärkten Audio-Ankern bewahrt werden. Für jedes Zeitfenster komprimiert OmniZip die Video-Token mittels eines verschachtelten raum-zeitlichen Schemas. Umfangreiche empirische Ergebnisse belegen die Vorteile von OmniZip – es erreicht im Vergleich zu anderen hochperformanten Ansätzen eine 3,42-fache Beschleunigung der Inferenz und eine 1,4-fache Reduzierung des Speicherbedarfs, bei gleichbleibender Leistung ohne Training.
English
Omnimodal large language models (OmniLLMs) have attracted increasing research attention of late towards unified audio-video understanding, wherein processing audio-video token sequences creates a significant computational bottleneck, however. Existing token compression methods have yet to accommodate this emerging need of jointly compressing multimodal tokens. To bridge this gap, we present OmniZip, a training-free, audio-guided audio-visual token-compression framework that optimizes multimodal token representation and accelerates inference. Specifically, OmniZip first identifies salient audio tokens, then computes an audio retention score for each time group to capture information density, thereby dynamically guiding video token pruning and preserving cues from audio anchors enhanced by cross-modal similarity. For each time window, OmniZip compresses the video tokens using an interleaved spatio-temporal scheme. Extensive empirical results demonstrate the merits of OmniZip - it achieves 3.42X inference speedup and 1.4X memory reduction over other top-performing counterparts, while maintaining performance with no training.