Когда меньше — достаточно: адаптивное сокращение токенов для эффективного представления изображений
When Less is Enough: Adaptive Token Reduction for Efficient Image Representation
March 20, 2025
Авторы: Eduard Allakhverdov, Elizaveta Goncharova, Andrey Kuznetsov
cs.AI
Аннотация
Визуальные энкодеры обычно генерируют большое количество визуальных токенов, предоставляя информационно насыщенные представления, но значительно увеличивая вычислительные затраты. Это поднимает вопрос о том, все ли сгенерированные токены одинаково ценны или некоторые из них можно отбросить для снижения вычислительных затрат без ущерба для качества. В данной статье мы представляем новый метод определения полезности признаков, основанный на идее, что менее ценные признаки могут быть восстановлены из более ценных. Мы реализуем эту концепцию, интегрируя автоэнкодер с механизмом выбора Gumbel-Softmax, который позволяет идентифицировать и сохранять только наиболее информативные визуальные токены. Для проверки нашего подхода мы сравнили производительность модели LLaVA-NeXT, использующей признаки, отобранные нашим методом, с признаками, выбранными случайным образом. Мы обнаружили, что в задачах, основанных на оптическом распознавании символов (OCR), более 50% визуального контекста можно удалить с минимальной потерей производительности, тогда как случайное удаление того же количества признаков значительно снижает возможности модели. Кроме того, в задачах общего назначения даже случайное сохранение только 30% токенов позволяет достичь производительности, сравнимой с использованием полного набора визуальных токенов. Наши результаты указывают на перспективное направление адаптивного и эффективного мультимодального сокращения, которое способствует масштабируемому и низкозатратному выводу без ущерба для производительности.
English
Vision encoders typically generate a large number of visual tokens, providing
information-rich representations but significantly increasing computational
demands. This raises the question of whether all generated tokens are equally
valuable or if some of them can be discarded to reduce computational costs
without compromising quality. In this paper, we introduce a new method for
determining feature utility based on the idea that less valuable features can
be reconstructed from more valuable ones. We implement this concept by
integrating an autoencoder with a Gumbel-Softmax selection mechanism, that
allows identifying and retaining only the most informative visual tokens. To
validate our approach, we compared the performance of the LLaVA-NeXT model,
using features selected by our method with randomly selected features. We found
that on OCR-based tasks, more than 50% of the visual context can be removed
with minimal performance loss, whereas randomly discarding the same proportion
of features significantly affects the model capabilities. Furthermore, in
general-domain tasks, even randomly retaining only 30% of tokens achieves
performance comparable to using the full set of visual tokens. Our results
highlight a promising direction towards adaptive and efficient multimodal
pruning that facilitates scalable and low-overhead inference without
compromising performance.Summary
AI-Generated Summary