OmniZip : Compression Dynamique de Tokens Guidée par l'Audio pour des Modèles de Langage de Grande Taille Omnimodaux Rapides
OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models
November 18, 2025
papers.authors: Keda Tao, Kele Shao, Bohan Yu, Weiqiang Wang, Jian liu, Huan Wang
cs.AI
papers.abstract
Les modèles linguistiques omnimodaux (OmniLLM) suscitent un intérêt croissant pour la compréhension unifiée audio-vidéo, mais le traitement des séquences de tokens audio-vidéo constitue un goulot d'étranglement computationnel important. Les méthodes existantes de compression de tokens ne répondent pas encore à ce besoin émergent de compression conjointe de tokens multimodaux. Pour combler cette lacune, nous présentons OmniZip, un cadre de compression de tokens audio-visuels guidé par l'audio et sans apprentissage, qui optimise la représentation multimodale des tokens et accélère l'inférence. Concrètement, OmniZip identifie d'abord les tokens audio saillants, puis calcule un score de rétention audio pour chaque groupe temporel afin de capturer la densité informationnelle, guidant ainsi dynamiquement l'élagage des tokens vidéo tout en préservant les indices provenant d'ancres audio renforcées par la similarité cross-modale. Pour chaque fenêtre temporelle, OmniZip compresse les tokens vidéo selon un schéma spatio-temporel entrelacé. Des résultats empiriques approfondis démontrent les mérites d'OmniZip : il atteint une accélération d'inférence de 3,42X et une réduction de mémoire de 1,4X par rapport aux meilleures alternatives, tout en maintenant les performances sans aucun apprentissage.
English
Omnimodal large language models (OmniLLMs) have attracted increasing research attention of late towards unified audio-video understanding, wherein processing audio-video token sequences creates a significant computational bottleneck, however. Existing token compression methods have yet to accommodate this emerging need of jointly compressing multimodal tokens. To bridge this gap, we present OmniZip, a training-free, audio-guided audio-visual token-compression framework that optimizes multimodal token representation and accelerates inference. Specifically, OmniZip first identifies salient audio tokens, then computes an audio retention score for each time group to capture information density, thereby dynamically guiding video token pruning and preserving cues from audio anchors enhanced by cross-modal similarity. For each time window, OmniZip compresses the video tokens using an interleaved spatio-temporal scheme. Extensive empirical results demonstrate the merits of OmniZip - it achieves 3.42X inference speedup and 1.4X memory reduction over other top-performing counterparts, while maintaining performance with no training.