OmniZip: Compressão Dinâmica de Tokens Guiada por Áudio para Modelos de Linguagem Multimodais Rápidos

Resumo

Os modelos de linguagem grandes omnimodais (OmniLLMs) têm atraído crescente atenção da investigação recentemente para uma compreensão unificada de áudio-vídeo, no entanto, o processamento de sequências de tokens áudio-vídeo cria um estrangulamento computacional significativo. Os métodos existentes de compressão de tokens ainda não acomodaram esta necessidade emergente de comprimir conjuntamente tokens multimodais. Para colmatar esta lacuna, apresentamos o OmniZip, uma estrutura de compressão de tokens áudio-visuais, guiada por áudio e sem necessidade de treino, que otimiza a representação de tokens multimodais e acelera a inferência. Especificamente, o OmniZip identifica primeiro tokens de áudio salientes, depois calcula uma pontuação de retenção de áudio para cada grupo temporal para capturar a densidade de informação, orientando dinamicamente a poda de tokens de vídeo e preservando pistas de âncoras de áudio melhoradas pela similaridade cross-modal. Para cada janela temporal, o OmniZip comprime os tokens de vídeo usando um esquema espaço-temporal intercalado. Resultados empíricos extensivos demonstram os méritos do OmniZip - ele alcança uma aceleração de inferência de 3,42X e uma redução de memória de 1,4X em relação a outras soluções de alto desempenho, mantendo o desempenho sem qualquer treino.

English

Omnimodal large language models (OmniLLMs) have attracted increasing research attention of late towards unified audio-video understanding, wherein processing audio-video token sequences creates a significant computational bottleneck, however. Existing token compression methods have yet to accommodate this emerging need of jointly compressing multimodal tokens. To bridge this gap, we present OmniZip, a training-free, audio-guided audio-visual token-compression framework that optimizes multimodal token representation and accelerates inference. Specifically, OmniZip first identifies salient audio tokens, then computes an audio retention score for each time group to capture information density, thereby dynamically guiding video token pruning and preserving cues from audio anchors enhanced by cross-modal similarity. For each time window, OmniZip compresses the video tokens using an interleaved spatio-temporal scheme. Extensive empirical results demonstrate the merits of OmniZip - it achieves 3.42X inference speedup and 1.4X memory reduction over other top-performing counterparts, while maintaining performance with no training.

OmniZip: Compressão Dinâmica de Tokens Guiada por Áudio para Modelos de Linguagem Multimodais Rápidos

OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models

Resumo

Support