Quando Meno è Sufficiente: Riduzione Adattiva dei Token per una Rappresentazione Efficiente delle Immagini
When Less is Enough: Adaptive Token Reduction for Efficient Image Representation
March 20, 2025
Autori: Eduard Allakhverdov, Elizaveta Goncharova, Andrey Kuznetsov
cs.AI
Abstract
Gli encoder visivi generano tipicamente un gran numero di token visivi, fornendo rappresentazioni ricche di informazioni ma aumentando significativamente le esigenze computazionali. Ciò solleva la questione se tutti i token generati siano ugualmente preziosi o se alcuni di essi possano essere scartati per ridurre i costi computazionali senza compromettere la qualità. In questo articolo, introduciamo un nuovo metodo per determinare l'utilità delle feature basato sull'idea che le feature meno preziose possano essere ricostruite da quelle più preziose. Implementiamo questo concetto integrando un autoencoder con un meccanismo di selezione Gumbel-Softmax, che consente di identificare e conservare solo i token visivi più informativi. Per validare il nostro approccio, abbiamo confrontato le prestazioni del modello LLaVA-NeXT, utilizzando feature selezionate dal nostro metodo con feature selezionate casualmente. Abbiamo scoperto che, nelle attività basate su OCR, più del 50% del contesto visivo può essere rimosso con una perdita minima di prestazioni, mentre scartare casualmente la stessa proporzione di feature influisce significativamente sulle capacità del modello. Inoltre, nelle attività di dominio generale, anche conservando casualmente solo il 30% dei token si ottengono prestazioni paragonabili all'utilizzo dell'intero set di token visivi. I nostri risultati evidenziano una direzione promettente verso un pruning multimodale adattivo ed efficiente che facilita inferenze scalabili e a basso overhead senza compromettere le prestazioni.
English
Vision encoders typically generate a large number of visual tokens, providing
information-rich representations but significantly increasing computational
demands. This raises the question of whether all generated tokens are equally
valuable or if some of them can be discarded to reduce computational costs
without compromising quality. In this paper, we introduce a new method for
determining feature utility based on the idea that less valuable features can
be reconstructed from more valuable ones. We implement this concept by
integrating an autoencoder with a Gumbel-Softmax selection mechanism, that
allows identifying and retaining only the most informative visual tokens. To
validate our approach, we compared the performance of the LLaVA-NeXT model,
using features selected by our method with randomly selected features. We found
that on OCR-based tasks, more than 50% of the visual context can be removed
with minimal performance loss, whereas randomly discarding the same proportion
of features significantly affects the model capabilities. Furthermore, in
general-domain tasks, even randomly retaining only 30% of tokens achieves
performance comparable to using the full set of visual tokens. Our results
highlight a promising direction towards adaptive and efficient multimodal
pruning that facilitates scalable and low-overhead inference without
compromising performance.