Quand moins suffit : réduction adaptative des tokens pour une représentation efficace des imagesWhen Less is Enough: Adaptive Token Reduction for Efficient Image
Representation
Les encodeurs visuels génèrent généralement un grand nombre de tokens visuels, fournissant des représentations riches en informations mais augmentant considérablement les exigences computationnelles. Cela soulève la question de savoir si tous les tokens générés sont également précieux ou si certains peuvent être éliminés pour réduire les coûts computationnels sans compromettre la qualité. Dans cet article, nous introduisons une nouvelle méthode pour déterminer l'utilité des caractéristiques, basée sur l'idée que les caractéristiques moins précieuses peuvent être reconstruites à partir de celles plus précieuses. Nous mettons en œuvre ce concept en intégrant un autoencodeur avec un mécanisme de sélection Gumbel-Softmax, qui permet d'identifier et de conserver uniquement les tokens visuels les plus informatifs. Pour valider notre approche, nous avons comparé les performances du modèle LLaVA-NeXT, utilisant les caractéristiques sélectionnées par notre méthode, avec des caractéristiques sélectionnées aléatoirement. Nous avons constaté que pour les tâches basées sur la reconnaissance optique de caractères (OCR), plus de 50 % du contexte visuel peut être supprimé avec une perte de performance minimale, alors que l'élimination aléatoire de la même proportion de caractéristiques affecte significativement les capacités du modèle. De plus, dans les tâches de domaine général, même la conservation aléatoire de seulement 30 % des tokens permet d'atteindre des performances comparables à l'utilisation de l'ensemble complet des tokens visuels. Nos résultats mettent en lumière une direction prometteuse vers un élagage multimodal adaptatif et efficace, facilitant une inférence scalable et à faible surcharge sans compromettre les performances.