"Componentes Principales" Habilitan un Nuevo Lenguaje de Imágenes
"Principal Components" Enable A New Language of Images
March 11, 2025
Autores: Xin Wen, Bingchen Zhao, Ismail Elezi, Jiankang Deng, Xiaojuan Qi
cs.AI
Resumen
Presentamos un novedoso marco de tokenización visual que incorpora una estructura demostrable similar al PCA en el espacio latente de tokens. Mientras que los tokenizadores visuales existentes se centran principalmente en optimizar la fidelidad de reconstrucción, a menudo descuidan las propiedades estructurales del espacio latente, un factor crítico tanto para la interpretabilidad como para las tareas posteriores. Nuestro método genera una secuencia causal de tokens 1D para imágenes, donde cada token sucesivo aporta información no superpuesta con una varianza explicada decreciente garantizada matemáticamente, análoga al análisis de componentes principales. Esta restricción estructural asegura que el tokenizador extraiga primero las características visuales más destacadas, con cada token subsiguiente añadiendo información complementaria pero decreciente. Además, identificamos y resolvimos un efecto de acoplamiento espectro-semántico que causa el entrelazamiento no deseado de contenido semántico de alto nivel y detalles espectrales de bajo nivel en los tokens, mediante el uso de un decodificador de difusión. Los experimentos demuestran que nuestro enfoque logra un rendimiento de reconstrucción de vanguardia y permite una mejor interpretabilidad alineada con el sistema visual humano. Además, los modelos auto-regresivos entrenados en nuestras secuencias de tokens alcanzan un rendimiento comparable a los métodos actuales más avanzados, mientras que requieren menos tokens para el entrenamiento y la inferencia.
English
We introduce a novel visual tokenization framework that embeds a provable
PCA-like structure into the latent token space. While existing visual
tokenizers primarily optimize for reconstruction fidelity, they often neglect
the structural properties of the latent space -- a critical factor for both
interpretability and downstream tasks. Our method generates a 1D causal token
sequence for images, where each successive token contributes non-overlapping
information with mathematically guaranteed decreasing explained variance,
analogous to principal component analysis. This structural constraint ensures
the tokenizer extracts the most salient visual features first, with each
subsequent token adding diminishing yet complementary information.
Additionally, we identified and resolved a semantic-spectrum coupling effect
that causes the unwanted entanglement of high-level semantic content and
low-level spectral details in the tokens by leveraging a diffusion decoder.
Experiments demonstrate that our approach achieves state-of-the-art
reconstruction performance and enables better interpretability to align with
the human vision system. Moreover, auto-regressive models trained on our token
sequences achieve performance comparable to current state-of-the-art methods
while requiring fewer tokens for training and inference.Summary
AI-Generated Summary