ChatPaper.aiChatPaper

Tokenização de Imagens com Comprimento Adaptativo através de Alocação Recorrente

Adaptive Length Image Tokenization via Recurrent Allocation

November 4, 2024
Autores: Shivam Duggal, Phillip Isola, Antonio Torralba, William T. Freeman
cs.AI

Resumo

Os sistemas de visão atuais geralmente atribuem representações de comprimento fixo às imagens, independentemente do conteúdo da informação. Isso contrasta com a inteligência humana - e até mesmo com grandes modelos de linguagem - que alocam capacidades representacionais variáveis com base na entropia, contexto e familiaridade. Inspirados por isso, propomos uma abordagem para aprender representações de token de comprimento variável para imagens 2D. Nossa arquitetura codificador-decodificador processa de forma recursiva tokens de imagem 2D, destilando-os em tokens latentes de 1D ao longo de múltiplas iterações de expansões recorrentes. Cada iteração aprimora os tokens 2D, atualiza os tokens latentes de 1D existentes e aumenta adaptativamente a capacidade representacional adicionando novos tokens. Isso permite a compressão de imagens em um número variável de tokens, variando de 32 a 256. Validamos nosso tokenizador usando perda de reconstrução e métricas FID, demonstrando que a contagem de tokens está alinhada com a entropia da imagem, familiaridade e requisitos de tarefas subsequentes. O processamento de token recorrente com aumento de capacidade representacional em cada iteração mostra sinais de especialização de token, revelando potencial para descoberta de objetos/partes.
English
Current vision systems typically assign fixed-length representations to images, regardless of the information content. This contrasts with human intelligence - and even large language models - which allocate varying representational capacities based on entropy, context and familiarity. Inspired by this, we propose an approach to learn variable-length token representations for 2D images. Our encoder-decoder architecture recursively processes 2D image tokens, distilling them into 1D latent tokens over multiple iterations of recurrent rollouts. Each iteration refines the 2D tokens, updates the existing 1D latent tokens, and adaptively increases representational capacity by adding new tokens. This enables compression of images into a variable number of tokens, ranging from 32 to 256. We validate our tokenizer using reconstruction loss and FID metrics, demonstrating that token count aligns with image entropy, familiarity and downstream task requirements. Recurrent token processing with increasing representational capacity in each iteration shows signs of token specialization, revealing potential for object / part discovery.

Summary

AI-Generated Summary

PDF131November 13, 2024