Quand moins suffit : réduction adaptative des tokens pour une représentation efficace des images
When Less is Enough: Adaptive Token Reduction for Efficient Image Representation
March 20, 2025
Auteurs: Eduard Allakhverdov, Elizaveta Goncharova, Andrey Kuznetsov
cs.AI
Résumé
Les encodeurs visuels génèrent généralement un grand nombre de tokens visuels, fournissant des représentations riches en informations mais augmentant considérablement les exigences computationnelles. Cela soulève la question de savoir si tous les tokens générés sont également précieux ou si certains peuvent être éliminés pour réduire les coûts computationnels sans compromettre la qualité. Dans cet article, nous introduisons une nouvelle méthode pour déterminer l'utilité des caractéristiques, basée sur l'idée que les caractéristiques moins précieuses peuvent être reconstruites à partir de celles plus précieuses. Nous mettons en œuvre ce concept en intégrant un autoencodeur avec un mécanisme de sélection Gumbel-Softmax, qui permet d'identifier et de conserver uniquement les tokens visuels les plus informatifs. Pour valider notre approche, nous avons comparé les performances du modèle LLaVA-NeXT, utilisant les caractéristiques sélectionnées par notre méthode, avec des caractéristiques sélectionnées aléatoirement. Nous avons constaté que pour les tâches basées sur la reconnaissance optique de caractères (OCR), plus de 50 % du contexte visuel peut être supprimé avec une perte de performance minimale, alors que l'élimination aléatoire de la même proportion de caractéristiques affecte significativement les capacités du modèle. De plus, dans les tâches de domaine général, même la conservation aléatoire de seulement 30 % des tokens permet d'atteindre des performances comparables à l'utilisation de l'ensemble complet des tokens visuels. Nos résultats mettent en lumière une direction prometteuse vers un élagage multimodal adaptatif et efficace, facilitant une inférence scalable et à faible surcharge sans compromettre les performances.
English
Vision encoders typically generate a large number of visual tokens, providing
information-rich representations but significantly increasing computational
demands. This raises the question of whether all generated tokens are equally
valuable or if some of them can be discarded to reduce computational costs
without compromising quality. In this paper, we introduce a new method for
determining feature utility based on the idea that less valuable features can
be reconstructed from more valuable ones. We implement this concept by
integrating an autoencoder with a Gumbel-Softmax selection mechanism, that
allows identifying and retaining only the most informative visual tokens. To
validate our approach, we compared the performance of the LLaVA-NeXT model,
using features selected by our method with randomly selected features. We found
that on OCR-based tasks, more than 50% of the visual context can be removed
with minimal performance loss, whereas randomly discarding the same proportion
of features significantly affects the model capabilities. Furthermore, in
general-domain tasks, even randomly retaining only 30% of tokens achieves
performance comparable to using the full set of visual tokens. Our results
highlight a promising direction towards adaptive and efficient multimodal
pruning that facilitates scalable and low-overhead inference without
compromising performance.Summary
AI-Generated Summary