Цель: Адаптивный вывод мультимодальных LLM слиянием и обрезкой токенов

Аннотация

Большие языковые модели (LLM) позволили создавать мультимодальные LLM, обладающие сильным пониманием визуальных данных, таких как изображения и видео. Однако эти модели обычно зависят от обширных визуальных токенов от визуальных кодировщиков, что приводит к высоким вычислительным требованиям, что ограничивает их применимость в ресурсоемких средах и для задач с длинным контекстом. В данной работе мы предлагаем метод адаптивного вывода без обучения для мультимодальных LLM, который может удовлетворять широкий спектр требований к эффективности с минимальным снижением производительности. Наш метод состоит из: а) итеративного объединения токенов на основе сходства встраивания перед LLM и б) постепенного обрезания токенов в слоях LLM на основе мультимодальной важности. С минималистичным дизайном наш метод может быть применен как к видео-, так и к изображениям LLM. Обширные эксперименты на различных видео- и изображениях показывают, что наш метод существенно снижает нагрузку на вычисления (например, в 7 раз сокращает FLOPs), сохраняя производительность видео- и изображений LLM. Кроме того, при сходной вычислительной стоимости наш метод превосходит современные методы в понимании длинных видео (например, +4,6 на MLVU). Кроме того, наш анализ предоставляет понимание избыточности токенов и поведения слоев LLM, предлагая рекомендации для будущих исследований по разработке эффективных мультимодальных LLM. Наш код будет доступен по адресу https://github.com/LaVi-Lab/AIM.

English

Large language models (LLMs) have enabled the creation of multi-modal LLMs that exhibit strong comprehension of visual data such as images and videos. However, these models usually rely on extensive visual tokens from visual encoders, leading to high computational demands, which limits their applicability in resource-constrained environments and for long-context tasks. In this work, we propose a training-free adaptive inference method for multi-modal LLMs that can accommodate a broad range of efficiency requirements with a minimum performance drop. Our method consists of a) iterative token merging based on embedding similarity before LLMs, and b) progressive token pruning within LLM layers based on multi-modal importance. With a minimalist design, our method can be applied to both video and image LLMs. Extensive experiments on diverse video and image benchmarks demonstrate that, our method substantially reduces computation load (e.g., a 7-fold reduction in FLOPs) while preserving the performance of video and image LLMs. Further, under a similar computational cost, our method outperforms the state-of-the-art methods in long video understanding (e.g., +4.6 on MLVU). Additionally, our in-depth analysis provides insights into token redundancy and LLM layer behaviors, offering guidance for future research in designing efficient multi-modal LLMs. Our code will be available at https://github.com/LaVi-Lab/AIM.

Цель: Адаптивный вывод мультимодальных LLM слиянием и обрезкой токенов

AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning

Аннотация

Support