ChatPaper.aiChatPaper

OmniZip: Аудио-управляемое динамическое сжатие токенов для быстрых омнимодальных больших языковых моделей

OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models

November 18, 2025
Авторы: Keda Tao, Kele Shao, Bohan Yu, Weiqiang Wang, Jian liu, Huan Wang
cs.AI

Аннотация

В последнее время универсальные большие языковые модели (OmniLLMs) привлекают все больше исследовательского внимания к решению задачи единого понимания аудио-видео контента. Однако обработка последовательностей аудио-видео токенов создает значительное вычислительное узкое место. Существующие методы сжатия токенов еще не адаптированы к этой новой потребности в совместном сжатии мультимодальных токенов. Чтобы устранить этот пробел, мы представляем OmniZip — не требующую обучения аудио-управляемую систему сжатия аудиовизуальных токенов, которая оптимизирует мультимодальное представление токенов и ускоряет вывод. В частности, OmniZip сначала идентифицирует значимые аудио-токены, затем вычисляет показатель сохранности аудио для каждой временной группы, чтобы capture плотность информации, тем самым динамически направляя pruning видео-токенов и сохраняя ключевые cues от аудио-якорей, усиленные кросс-модальным сходством. Для каждого временного окна OmniZip сжимает видео-токены с помощью чередующейся пространственно-временной схемы. Обширные эмпирические результаты демонстрируют преимущества OmniZip: система достигает 3.42-кратного ускорения вывода и 1.4-кратного сокращения использования памяти по сравнению с другими ведущими аналогами, сохраняя производительность без необходимости обучения.
English
Omnimodal large language models (OmniLLMs) have attracted increasing research attention of late towards unified audio-video understanding, wherein processing audio-video token sequences creates a significant computational bottleneck, however. Existing token compression methods have yet to accommodate this emerging need of jointly compressing multimodal tokens. To bridge this gap, we present OmniZip, a training-free, audio-guided audio-visual token-compression framework that optimizes multimodal token representation and accelerates inference. Specifically, OmniZip first identifies salient audio tokens, then computes an audio retention score for each time group to capture information density, thereby dynamically guiding video token pruning and preserving cues from audio anchors enhanced by cross-modal similarity. For each time window, OmniZip compresses the video tokens using an interleaved spatio-temporal scheme. Extensive empirical results demonstrate the merits of OmniZip - it achieves 3.42X inference speedup and 1.4X memory reduction over other top-performing counterparts, while maintaining performance with no training.
PDF172December 1, 2025