"Componentes Principales" Habilitan un Nuevo Lenguaje de Imágenes

Resumen

Presentamos un novedoso marco de tokenización visual que incorpora una estructura demostrable similar al PCA en el espacio latente de tokens. Mientras que los tokenizadores visuales existentes se centran principalmente en optimizar la fidelidad de reconstrucción, a menudo descuidan las propiedades estructurales del espacio latente, un factor crítico tanto para la interpretabilidad como para las tareas posteriores. Nuestro método genera una secuencia causal de tokens 1D para imágenes, donde cada token sucesivo aporta información no superpuesta con una varianza explicada decreciente garantizada matemáticamente, análoga al análisis de componentes principales. Esta restricción estructural asegura que el tokenizador extraiga primero las características visuales más destacadas, con cada token subsiguiente añadiendo información complementaria pero decreciente. Además, identificamos y resolvimos un efecto de acoplamiento espectro-semántico que causa el entrelazamiento no deseado de contenido semántico de alto nivel y detalles espectrales de bajo nivel en los tokens, mediante el uso de un decodificador de difusión. Los experimentos demuestran que nuestro enfoque logra un rendimiento de reconstrucción de vanguardia y permite una mejor interpretabilidad alineada con el sistema visual humano. Además, los modelos auto-regresivos entrenados en nuestras secuencias de tokens alcanzan un rendimiento comparable a los métodos actuales más avanzados, mientras que requieren menos tokens para el entrenamiento y la inferencia.

English

We introduce a novel visual tokenization framework that embeds a provable PCA-like structure into the latent token space. While existing visual tokenizers primarily optimize for reconstruction fidelity, they often neglect the structural properties of the latent space -- a critical factor for both interpretability and downstream tasks. Our method generates a 1D causal token sequence for images, where each successive token contributes non-overlapping information with mathematically guaranteed decreasing explained variance, analogous to principal component analysis. This structural constraint ensures the tokenizer extracts the most salient visual features first, with each subsequent token adding diminishing yet complementary information. Additionally, we identified and resolved a semantic-spectrum coupling effect that causes the unwanted entanglement of high-level semantic content and low-level spectral details in the tokens by leveraging a diffusion decoder. Experiments demonstrate that our approach achieves state-of-the-art reconstruction performance and enables better interpretability to align with the human vision system. Moreover, auto-regressive models trained on our token sequences achieve performance comparable to current state-of-the-art methods while requiring fewer tokens for training and inference.

"Componentes Principales" Habilitan un Nuevo Lenguaje de Imágenes

"Principal Components" Enable A New Language of Images

Resumen

Support