Цель: Адаптивный вывод мультимодальных LLM слиянием и обрезкой токенов
AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning
December 4, 2024
Авторы: Yiwu Zhong, Zhuoming Liu, Yin Li, Liwei Wang
cs.AI
Аннотация
Большие языковые модели (LLM) позволили создавать мультимодальные LLM, обладающие сильным пониманием визуальных данных, таких как изображения и видео. Однако эти модели обычно зависят от обширных визуальных токенов от визуальных кодировщиков, что приводит к высоким вычислительным требованиям, что ограничивает их применимость в ресурсоемких средах и для задач с длинным контекстом. В данной работе мы предлагаем метод адаптивного вывода без обучения для мультимодальных LLM, который может удовлетворять широкий спектр требований к эффективности с минимальным снижением производительности. Наш метод состоит из: а) итеративного объединения токенов на основе сходства встраивания перед LLM и б) постепенного обрезания токенов в слоях LLM на основе мультимодальной важности. С минималистичным дизайном наш метод может быть применен как к видео-, так и к изображениям LLM. Обширные эксперименты на различных видео- и изображениях показывают, что наш метод существенно снижает нагрузку на вычисления (например, в 7 раз сокращает FLOPs), сохраняя производительность видео- и изображений LLM. Кроме того, при сходной вычислительной стоимости наш метод превосходит современные методы в понимании длинных видео (например, +4,6 на MLVU). Кроме того, наш анализ предоставляет понимание избыточности токенов и поведения слоев LLM, предлагая рекомендации для будущих исследований по разработке эффективных мультимодальных LLM. Наш код будет доступен по адресу https://github.com/LaVi-Lab/AIM.
English
Large language models (LLMs) have enabled the creation of multi-modal LLMs
that exhibit strong comprehension of visual data such as images and videos.
However, these models usually rely on extensive visual tokens from visual
encoders, leading to high computational demands, which limits their
applicability in resource-constrained environments and for long-context tasks.
In this work, we propose a training-free adaptive inference method for
multi-modal LLMs that can accommodate a broad range of efficiency requirements
with a minimum performance drop. Our method consists of a) iterative token
merging based on embedding similarity before LLMs, and b) progressive token
pruning within LLM layers based on multi-modal importance. With a minimalist
design, our method can be applied to both video and image LLMs. Extensive
experiments on diverse video and image benchmarks demonstrate that, our method
substantially reduces computation load (e.g., a 7-fold reduction in
FLOPs) while preserving the performance of video and image LLMs. Further, under
a similar computational cost, our method outperforms the state-of-the-art
methods in long video understanding (e.g., +4.6 on MLVU).
Additionally, our in-depth analysis provides insights into token redundancy and
LLM layer behaviors, offering guidance for future research in designing
efficient multi-modal LLMs. Our code will be available at
https://github.com/LaVi-Lab/AIM.Summary
AI-Generated Summary