Quando Menos é Suficiente: Redução Adaptativa de Tokens para Representação Eficiente de Imagens
When Less is Enough: Adaptive Token Reduction for Efficient Image Representation
March 20, 2025
Autores: Eduard Allakhverdov, Elizaveta Goncharova, Andrey Kuznetsov
cs.AI
Resumo
Codificadores de visão normalmente geram um grande número de tokens visuais, fornecendo representações ricas em informações, mas aumentando significativamente as demandas computacionais. Isso levanta a questão de se todos os tokens gerados são igualmente valiosos ou se alguns deles podem ser descartados para reduzir os custos computacionais sem comprometer a qualidade. Neste artigo, introduzimos um novo método para determinar a utilidade das características com base na ideia de que características menos valiosas podem ser reconstruídas a partir de outras mais valiosas. Implementamos esse conceito integrando um autoencoder com um mecanismo de seleção Gumbel-Softmax, que permite identificar e reter apenas os tokens visuais mais informativos. Para validar nossa abordagem, comparamos o desempenho do modelo LLaVA-NeXT, utilizando características selecionadas por nosso método com características selecionadas aleatoriamente. Descobrimos que, em tarefas baseadas em OCR, mais de 50% do contexto visual pode ser removido com perda mínima de desempenho, enquanto descartar aleatoriamente a mesma proporção de características afeta significativamente as capacidades do modelo. Além disso, em tarefas de domínio geral, mesmo retendo aleatoriamente apenas 30% dos tokens, o desempenho é comparável ao uso do conjunto completo de tokens visuais. Nossos resultados destacam uma direção promissora para a poda multimodal adaptativa e eficiente, que facilita inferência escalável e de baixo custo sem comprometer o desempenho.
English
Vision encoders typically generate a large number of visual tokens, providing
information-rich representations but significantly increasing computational
demands. This raises the question of whether all generated tokens are equally
valuable or if some of them can be discarded to reduce computational costs
without compromising quality. In this paper, we introduce a new method for
determining feature utility based on the idea that less valuable features can
be reconstructed from more valuable ones. We implement this concept by
integrating an autoencoder with a Gumbel-Softmax selection mechanism, that
allows identifying and retaining only the most informative visual tokens. To
validate our approach, we compared the performance of the LLaVA-NeXT model,
using features selected by our method with randomly selected features. We found
that on OCR-based tasks, more than 50% of the visual context can be removed
with minimal performance loss, whereas randomly discarding the same proportion
of features significantly affects the model capabilities. Furthermore, in
general-domain tasks, even randomly retaining only 30% of tokens achieves
performance comparable to using the full set of visual tokens. Our results
highlight a promising direction towards adaptive and efficient multimodal
pruning that facilitates scalable and low-overhead inference without
compromising performance.Summary
AI-Generated Summary