Cuando Menos es Suficiente: Reducción Adaptativa de Tokens para una Representación Eficiente de ImágenesWhen Less is Enough: Adaptive Token Reduction for Efficient Image
Representation
Los codificadores visuales suelen generar un gran número de tokens visuales, proporcionando representaciones ricas en información pero aumentando significativamente las demandas computacionales. Esto plantea la pregunta de si todos los tokens generados son igualmente valiosos o si algunos de ellos pueden descartarse para reducir los costos computacionales sin comprometer la calidad. En este artículo, presentamos un nuevo método para determinar la utilidad de las características basado en la idea de que las características menos valiosas pueden reconstruirse a partir de las más valiosas. Implementamos este concepto integrando un autoencoder con un mecanismo de selección Gumbel-Softmax, que permite identificar y retener solo los tokens visuales más informativos. Para validar nuestro enfoque, comparamos el rendimiento del modelo LLaVA-NeXT, utilizando características seleccionadas por nuestro método con características seleccionadas aleatoriamente. Descubrimos que en tareas basadas en OCR, más del 50% del contexto visual puede eliminarse con una pérdida mínima de rendimiento, mientras que descartar aleatoriamente la misma proporción de características afecta significativamente las capacidades del modelo. Además, en tareas de dominio general, incluso retener aleatoriamente solo el 30% de los tokens logra un rendimiento comparable al uso del conjunto completo de tokens visuales. Nuestros resultados destacan una dirección prometedora hacia una poda multimodal adaptativa y eficiente que facilita una inferencia escalable y de bajo costo sin comprometer el rendimiento.