Адаптивная токенизация изображений переменной длины с помощью рекуррентного выделения.
Adaptive Length Image Tokenization via Recurrent Allocation
November 4, 2024
Авторы: Shivam Duggal, Phillip Isola, Antonio Torralba, William T. Freeman
cs.AI
Аннотация
В текущих системах компьютерного зрения обычно присваивают изображениям представления фиксированной длины, независимо от содержащейся информации. Это в отличие от человеческого интеллекта - и даже от крупных языковых моделей - которые выделяют различные объемы представлений на основе энтропии, контекста и знакомства. Вдохновленные этим, мы предлагаем подход к обучению представлений токенов переменной длины для двумерных изображений. Наша архитектура кодировщик-декодировщик рекурсивно обрабатывает токены двумерных изображений, уплотняя их в одномерные латентные токены на протяжении нескольких итераций рекуррентных прокруток. Каждая итерация улучшает двумерные токены, обновляет существующие одномерные латентные токены и адаптивно увеличивает объем представления путем добавления новых токенов. Это позволяет сжимать изображения в переменное количество токенов, варьирующееся от 32 до 256. Мы проверяем наш токенизатор с помощью потерь при восстановлении и метрик FID, демонстрируя, что количество токенов соответствует энтропии изображения, знакомству и требованиям задач на следующем этапе. Рекуррентная обработка токенов с увеличением объема представления на каждой итерации показывает признаки специализации токенов, раскрывая потенциал для обнаружения объектов / частей.
English
Current vision systems typically assign fixed-length representations to
images, regardless of the information content. This contrasts with human
intelligence - and even large language models - which allocate varying
representational capacities based on entropy, context and familiarity. Inspired
by this, we propose an approach to learn variable-length token representations
for 2D images. Our encoder-decoder architecture recursively processes 2D image
tokens, distilling them into 1D latent tokens over multiple iterations of
recurrent rollouts. Each iteration refines the 2D tokens, updates the existing
1D latent tokens, and adaptively increases representational capacity by adding
new tokens. This enables compression of images into a variable number of
tokens, ranging from 32 to 256. We validate our tokenizer using reconstruction
loss and FID metrics, demonstrating that token count aligns with image entropy,
familiarity and downstream task requirements. Recurrent token processing with
increasing representational capacity in each iteration shows signs of token
specialization, revealing potential for object / part discovery.Summary
AI-Generated Summary