Doel: Adaptieve Inferentie van Multi-Modale GPT-modellen via Token Samenvoeging en Snoeiing

Samenvatting

Grote taalmodellen (LLM's) hebben de ontwikkeling mogelijk gemaakt van multimodale LLM's die een sterke begrip van visuele gegevens zoals afbeeldingen en video's vertonen. Echter, deze modellen vertrouwen meestal op uitgebreide visuele tokens van visuele encoders, wat resulteert in hoge rekenkundige eisen, waardoor hun toepasbaarheid beperkt is in omgevingen met beperkte middelen en voor taken met een lange context. In dit werk stellen we een trainingvrije adaptieve inferentiemethode voor multimodale LLM's voor die een breed scala aan efficiëntie-eisen kan accommoderen met een minimaal prestatieverlies. Onze methode bestaat uit a) iteratieve token-samenvoeging op basis van insluitingssimilariteit vóór LLM's, en b) progressieve token-snoei binnen LLM-lagen op basis van multimodale belangrijkheid. Met een minimalistisch ontwerp kan onze methode worden toegepast op zowel video- als afbeeldings-LLM's. Uitgebreide experimenten op diverse video- en afbeeldingsbenchmarks tonen aan dat onze methode aanzienlijk de rekenbelasting vermindert (bijv. een 7-voudige vermindering in FLOPs) terwijl de prestaties van video- en afbeeldings-LLM's behouden blijven. Bovendien presteert onze methode beter dan de state-of-the-art methoden in het begrip van lange video's (bijv. +4.6 op MLVU) onder een vergelijkbare rekenkundige kost. Daarnaast biedt onze diepgaande analyse inzichten in token redundantie en LLM-laaggedrag, wat richting geeft voor toekomstig onderzoek bij het ontwerpen van efficiënte multimodale LLM's. Onze code zal beschikbaar zijn op https://github.com/LaVi-Lab/AIM.

English

Large language models (LLMs) have enabled the creation of multi-modal LLMs that exhibit strong comprehension of visual data such as images and videos. However, these models usually rely on extensive visual tokens from visual encoders, leading to high computational demands, which limits their applicability in resource-constrained environments and for long-context tasks. In this work, we propose a training-free adaptive inference method for multi-modal LLMs that can accommodate a broad range of efficiency requirements with a minimum performance drop. Our method consists of a) iterative token merging based on embedding similarity before LLMs, and b) progressive token pruning within LLM layers based on multi-modal importance. With a minimalist design, our method can be applied to both video and image LLMs. Extensive experiments on diverse video and image benchmarks demonstrate that, our method substantially reduces computation load (e.g., a 7-fold reduction in FLOPs) while preserving the performance of video and image LLMs. Further, under a similar computational cost, our method outperforms the state-of-the-art methods in long video understanding (e.g., +4.6 on MLVU). Additionally, our in-depth analysis provides insights into token redundancy and LLM layer behaviors, offering guidance for future research in designing efficient multi-modal LLMs. Our code will be available at https://github.com/LaVi-Lab/AIM.

Doel: Adaptieve Inferentie van Multi-Modale GPT-modellen via Token Samenvoeging en Snoeiing

AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning

Samenvatting

Support