Doel: Adaptieve Inferentie van Multi-Modale GPT-modellen via Token Samenvoeging en Snoeiing
AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning
December 4, 2024
Auteurs: Yiwu Zhong, Zhuoming Liu, Yin Li, Liwei Wang
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben de ontwikkeling mogelijk gemaakt van multimodale LLM's die een sterke begrip van visuele gegevens zoals afbeeldingen en video's vertonen. Echter, deze modellen vertrouwen meestal op uitgebreide visuele tokens van visuele encoders, wat resulteert in hoge rekenkundige eisen, waardoor hun toepasbaarheid beperkt is in omgevingen met beperkte middelen en voor taken met een lange context. In dit werk stellen we een trainingvrije adaptieve inferentiemethode voor multimodale LLM's voor die een breed scala aan efficiëntie-eisen kan accommoderen met een minimaal prestatieverlies. Onze methode bestaat uit a) iteratieve token-samenvoeging op basis van insluitingssimilariteit vóór LLM's, en b) progressieve token-snoei binnen LLM-lagen op basis van multimodale belangrijkheid. Met een minimalistisch ontwerp kan onze methode worden toegepast op zowel video- als afbeeldings-LLM's. Uitgebreide experimenten op diverse video- en afbeeldingsbenchmarks tonen aan dat onze methode aanzienlijk de rekenbelasting vermindert (bijv. een 7-voudige vermindering in FLOPs) terwijl de prestaties van video- en afbeeldings-LLM's behouden blijven. Bovendien presteert onze methode beter dan de state-of-the-art methoden in het begrip van lange video's (bijv. +4.6 op MLVU) onder een vergelijkbare rekenkundige kost. Daarnaast biedt onze diepgaande analyse inzichten in token redundantie en LLM-laaggedrag, wat richting geeft voor toekomstig onderzoek bij het ontwerpen van efficiënte multimodale LLM's. Onze code zal beschikbaar zijn op https://github.com/LaVi-Lab/AIM.
English
Large language models (LLMs) have enabled the creation of multi-modal LLMs
that exhibit strong comprehension of visual data such as images and videos.
However, these models usually rely on extensive visual tokens from visual
encoders, leading to high computational demands, which limits their
applicability in resource-constrained environments and for long-context tasks.
In this work, we propose a training-free adaptive inference method for
multi-modal LLMs that can accommodate a broad range of efficiency requirements
with a minimum performance drop. Our method consists of a) iterative token
merging based on embedding similarity before LLMs, and b) progressive token
pruning within LLM layers based on multi-modal importance. With a minimalist
design, our method can be applied to both video and image LLMs. Extensive
experiments on diverse video and image benchmarks demonstrate that, our method
substantially reduces computation load (e.g., a 7-fold reduction in
FLOPs) while preserving the performance of video and image LLMs. Further, under
a similar computational cost, our method outperforms the state-of-the-art
methods in long video understanding (e.g., +4.6 on MLVU).
Additionally, our in-depth analysis provides insights into token redundancy and
LLM layer behaviors, offering guidance for future research in designing
efficient multi-modal LLMs. Our code will be available at
https://github.com/LaVi-Lab/AIM.