ChatPaper.aiChatPaper

OmniZip: Audio-geleide dynamische tokencompressie voor snelle omnimodale grote taalmodellen

OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models

November 18, 2025
Auteurs: Keda Tao, Kele Shao, Bohan Yu, Weiqiang Wang, Jian liu, Huan Wang
cs.AI

Samenvatting

Omnimonale grote taalmodellen (OmniLLM's) trekken recentelijk toenemende onderzoeksaandacht voor verenigde audio-video-begrip, waarbij de verwerking van audio-videotokenreeksen echter een aanzienlijk computationeel knelpunt vormt. Bestaande tokencompressiemethoden hebben deze opkomende behoefte aan gezamenlijke compressie van multimodale tokens nog niet vervuld. Om deze kloof te overbruggen, presenteren we OmniZip, een trainingsvrij, audio-gestuurd audio-visueel tokencompressieraamwerk dat de multimodale tokenrepresentatie optimaliseert en inferentie versnelt. Specifiek identificeert OmniZip eerst saliënte audiotokens, berekent vervolgens een audio-retentiescore voor elke tijdgroep om informatiedichtheid vast te leggen, en leidt daardoor dynamisch de pruning van videotokens en behoudt cues van audio-ankers die worden versterkt door cross-modale gelijkenis. Voor elk tijdvenster comprimeert OmniZip de videotokens met behulp van een intergeleaveerd ruimtelijk-temporeel schema. Uitgebreide empirische resultaten tonen de verdiensten van OmniZip aan - het behaalt een 3,42x versnelling van de inferentie en een 1,4x vermindering van het geheugengebruik ten opzichte van andere topprestatie-alternatieven, waarbij de prestaties behouden blijven zonder training.
English
Omnimodal large language models (OmniLLMs) have attracted increasing research attention of late towards unified audio-video understanding, wherein processing audio-video token sequences creates a significant computational bottleneck, however. Existing token compression methods have yet to accommodate this emerging need of jointly compressing multimodal tokens. To bridge this gap, we present OmniZip, a training-free, audio-guided audio-visual token-compression framework that optimizes multimodal token representation and accelerates inference. Specifically, OmniZip first identifies salient audio tokens, then computes an audio retention score for each time group to capture information density, thereby dynamically guiding video token pruning and preserving cues from audio anchors enhanced by cross-modal similarity. For each time window, OmniZip compresses the video tokens using an interleaved spatio-temporal scheme. Extensive empirical results demonstrate the merits of OmniZip - it achieves 3.42X inference speedup and 1.4X memory reduction over other top-performing counterparts, while maintaining performance with no training.
PDF172December 1, 2025