Когда меньше — достаточно: адаптивное сокращение токенов для эффективного представления изображенийWhen Less is Enough: Adaptive Token Reduction for Efficient Image
Representation
Визуальные энкодеры обычно генерируют большое количество визуальных токенов, предоставляя информационно насыщенные представления, но значительно увеличивая вычислительные затраты. Это поднимает вопрос о том, все ли сгенерированные токены одинаково ценны или некоторые из них можно отбросить для снижения вычислительных затрат без ущерба для качества. В данной статье мы представляем новый метод определения полезности признаков, основанный на идее, что менее ценные признаки могут быть восстановлены из более ценных. Мы реализуем эту концепцию, интегрируя автоэнкодер с механизмом выбора Gumbel-Softmax, который позволяет идентифицировать и сохранять только наиболее информативные визуальные токены. Для проверки нашего подхода мы сравнили производительность модели LLaVA-NeXT, использующей признаки, отобранные нашим методом, с признаками, выбранными случайным образом. Мы обнаружили, что в задачах, основанных на оптическом распознавании символов (OCR), более 50% визуального контекста можно удалить с минимальной потерей производительности, тогда как случайное удаление того же количества признаков значительно снижает возможности модели. Кроме того, в задачах общего назначения даже случайное сохранение только 30% токенов позволяет достичь производительности, сравнимой с использованием полного набора визуальных токенов. Наши результаты указывают на перспективное направление адаптивного и эффективного мультимодального сокращения, которое способствует масштабируемому и низкозатратному выводу без ущерба для производительности.