ChatPaper.aiChatPaper

Cuando Menos es Suficiente: Reducción Adaptativa de Tokens para una Representación Eficiente de Imágenes

When Less is Enough: Adaptive Token Reduction for Efficient Image Representation

March 20, 2025
Autores: Eduard Allakhverdov, Elizaveta Goncharova, Andrey Kuznetsov
cs.AI

Resumen

Los codificadores visuales suelen generar un gran número de tokens visuales, proporcionando representaciones ricas en información pero aumentando significativamente las demandas computacionales. Esto plantea la pregunta de si todos los tokens generados son igualmente valiosos o si algunos de ellos pueden descartarse para reducir los costos computacionales sin comprometer la calidad. En este artículo, presentamos un nuevo método para determinar la utilidad de las características basado en la idea de que las características menos valiosas pueden reconstruirse a partir de las más valiosas. Implementamos este concepto integrando un autoencoder con un mecanismo de selección Gumbel-Softmax, que permite identificar y retener solo los tokens visuales más informativos. Para validar nuestro enfoque, comparamos el rendimiento del modelo LLaVA-NeXT, utilizando características seleccionadas por nuestro método con características seleccionadas aleatoriamente. Descubrimos que en tareas basadas en OCR, más del 50% del contexto visual puede eliminarse con una pérdida mínima de rendimiento, mientras que descartar aleatoriamente la misma proporción de características afecta significativamente las capacidades del modelo. Además, en tareas de dominio general, incluso retener aleatoriamente solo el 30% de los tokens logra un rendimiento comparable al uso del conjunto completo de tokens visuales. Nuestros resultados destacan una dirección prometedora hacia una poda multimodal adaptativa y eficiente que facilita una inferencia escalable y de bajo costo sin comprometer el rendimiento.
English
Vision encoders typically generate a large number of visual tokens, providing information-rich representations but significantly increasing computational demands. This raises the question of whether all generated tokens are equally valuable or if some of them can be discarded to reduce computational costs without compromising quality. In this paper, we introduce a new method for determining feature utility based on the idea that less valuable features can be reconstructed from more valuable ones. We implement this concept by integrating an autoencoder with a Gumbel-Softmax selection mechanism, that allows identifying and retaining only the most informative visual tokens. To validate our approach, we compared the performance of the LLaVA-NeXT model, using features selected by our method with randomly selected features. We found that on OCR-based tasks, more than 50% of the visual context can be removed with minimal performance loss, whereas randomly discarding the same proportion of features significantly affects the model capabilities. Furthermore, in general-domain tasks, even randomly retaining only 30% of tokens achieves performance comparable to using the full set of visual tokens. Our results highlight a promising direction towards adaptive and efficient multimodal pruning that facilitates scalable and low-overhead inference without compromising performance.

Summary

AI-Generated Summary

PDF732March 24, 2025