ChatPaper.aiChatPaper

OmniZip: Compresión Dinámica de Tokens Guiada por Audio para Modelos de Lenguaje Grandes Omnimodales Rápidos

OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models

November 18, 2025
Autores: Keda Tao, Kele Shao, Bohan Yu, Weiqiang Wang, Jian liu, Huan Wang
cs.AI

Resumen

Los modelos de lenguaje grandes omnimodales (OmniLLMs) han atraído una creciente atención investigadora recientemente hacia la comprensión unificada de audio y vídeo, aunque el procesamiento de secuencias de tokens audiovisuales crea un cuello de botella computacional significativo. Sin embargo, los métodos existentes de compresión de tokens aún no han cubierto esta necesidad emergente de comprimir conjuntamente tokens multimodales. Para cerrar esta brecha, presentamos OmniZip, un marco de compresión de tokens audiovisuales guiado por audio y sin necesidad de entrenamiento, que optimiza la representación de tokens multimodales y acelera la inferencia. Específicamente, OmniZip primero identifica los tokens de audio más relevantes, luego calcula una puntuación de retención de audio para cada grupo temporal para capturar la densidad de información, guiando dinámicamente la poda de tokens de vídeo y preservando las claves de los anclajes de audio mejorados por la similitud cross-modal. Para cada ventana temporal, OmniZip comprime los tokens de vídeo utilizando un esquema espaciotemporal intercalado. Resultados empíricos exhaustivos demuestran las ventajas de OmniZip: logra una aceleración de la inferencia de 3.42X y una reducción de memoria de 1.4X sobre otras alternativas de alto rendimiento, manteniendo el rendimiento sin necesidad de entrenamiento.
English
Omnimodal large language models (OmniLLMs) have attracted increasing research attention of late towards unified audio-video understanding, wherein processing audio-video token sequences creates a significant computational bottleneck, however. Existing token compression methods have yet to accommodate this emerging need of jointly compressing multimodal tokens. To bridge this gap, we present OmniZip, a training-free, audio-guided audio-visual token-compression framework that optimizes multimodal token representation and accelerates inference. Specifically, OmniZip first identifies salient audio tokens, then computes an audio retention score for each time group to capture information density, thereby dynamically guiding video token pruning and preserving cues from audio anchors enhanced by cross-modal similarity. For each time window, OmniZip compresses the video tokens using an interleaved spatio-temporal scheme. Extensive empirical results demonstrate the merits of OmniZip - it achieves 3.42X inference speedup and 1.4X memory reduction over other top-performing counterparts, while maintaining performance with no training.
PDF172December 1, 2025