Quando Menos é Suficiente: Redução Adaptativa de Tokens para Representação Eficiente de ImagensWhen Less is Enough: Adaptive Token Reduction for Efficient Image
Representation
Codificadores de visão normalmente geram um grande número de tokens visuais, fornecendo representações ricas em informações, mas aumentando significativamente as demandas computacionais. Isso levanta a questão de se todos os tokens gerados são igualmente valiosos ou se alguns deles podem ser descartados para reduzir os custos computacionais sem comprometer a qualidade. Neste artigo, introduzimos um novo método para determinar a utilidade das características com base na ideia de que características menos valiosas podem ser reconstruídas a partir de outras mais valiosas. Implementamos esse conceito integrando um autoencoder com um mecanismo de seleção Gumbel-Softmax, que permite identificar e reter apenas os tokens visuais mais informativos. Para validar nossa abordagem, comparamos o desempenho do modelo LLaVA-NeXT, utilizando características selecionadas por nosso método com características selecionadas aleatoriamente. Descobrimos que, em tarefas baseadas em OCR, mais de 50% do contexto visual pode ser removido com perda mínima de desempenho, enquanto descartar aleatoriamente a mesma proporção de características afeta significativamente as capacidades do modelo. Além disso, em tarefas de domínio geral, mesmo retendo aleatoriamente apenas 30% dos tokens, o desempenho é comparável ao uso do conjunto completo de tokens visuais. Nossos resultados destacam uma direção promissora para a poda multimodal adaptativa e eficiente, que facilita inferência escalável e de baixo custo sem comprometer o desempenho.