Tokenización de Imágenes de Longitud Adaptativa a través de Asignación Recurrente

Resumen

Los sistemas de visión actuales suelen asignar representaciones de longitud fija a las imágenes, independientemente del contenido de información. Esto contrasta con la inteligencia humana, e incluso con los grandes modelos de lenguaje, que asignan capacidades representacionales variables basadas en la entropía, el contexto y la familiaridad. Inspirados en esto, proponemos un enfoque para aprender representaciones de tokens de longitud variable para imágenes 2D. Nuestra arquitectura codificador-decodificador procesa de forma recursiva tokens de imagen 2D, destilándolos en tokens latentes 1D a lo largo de múltiples iteraciones de despliegues recurrentes. Cada iteración perfecciona los tokens 2D, actualiza los tokens latentes 1D existentes y aumenta adaptativamente la capacidad representacional añadiendo nuevos tokens. Esto permite la compresión de imágenes en un número variable de tokens, que va desde 32 hasta 256. Validamos nuestro tokenizador utilizando la pérdida de reconstrucción y métricas FID, demostrando que el recuento de tokens se alinea con la entropía de la imagen, la familiaridad y los requisitos de tareas posteriores. El procesamiento recurrente de tokens con aumento de la capacidad representacional en cada iteración muestra signos de especialización de tokens, revelando un potencial para el descubrimiento de objetos/partes.

English

Current vision systems typically assign fixed-length representations to images, regardless of the information content. This contrasts with human intelligence - and even large language models - which allocate varying representational capacities based on entropy, context and familiarity. Inspired by this, we propose an approach to learn variable-length token representations for 2D images. Our encoder-decoder architecture recursively processes 2D image tokens, distilling them into 1D latent tokens over multiple iterations of recurrent rollouts. Each iteration refines the 2D tokens, updates the existing 1D latent tokens, and adaptively increases representational capacity by adding new tokens. This enables compression of images into a variable number of tokens, ranging from 32 to 256. We validate our tokenizer using reconstruction loss and FID metrics, demonstrating that token count aligns with image entropy, familiarity and downstream task requirements. Recurrent token processing with increasing representational capacity in each iteration shows signs of token specialization, revealing potential for object / part discovery.

Tokenización de Imágenes de Longitud Adaptativa a través de Asignación Recurrente

Adaptive Length Image Tokenization via Recurrent Allocation

Resumen

Support