"Hoofdcomponenten" maken een nieuwe beeldtaal mogelijk
"Principal Components" Enable A New Language of Images
March 11, 2025
Auteurs: Xin Wen, Bingchen Zhao, Ismail Elezi, Jiankang Deng, Xiaojuan Qi
cs.AI
Samenvatting
We introduceren een nieuw visueel tokenisatiekader dat een bewijsbare PCA-achtige structuur in de latente tokenruimte incorporeert. Terwijl bestaande visuele tokenizers voornamelijk optimaliseren voor reconstructiefideliteit, verwaarlozen ze vaak de structurele eigenschappen van de latente ruimte — een cruciaal aspect voor zowel interpreteerbaarheid als downstream taken. Onze methode genereert een 1D causale tokenreeks voor afbeeldingen, waarbij elke opeenvolgende token niet-overlappende informatie bijdraagt met wiskundig gegarandeerde afnemende verklaarde variantie, analoog aan hoofdcomponentenanalyse. Deze structurele beperking zorgt ervoor dat de tokenizer eerst de meest opvallende visuele kenmerken extraheert, waarbij elke volgende token afnemende maar complementaire informatie toevoegt. Daarnaast hebben we een semantisch-spectrumkoppelingseffect geïdentificeerd en opgelost dat ongewenste verstrengeling van hoogwaardige semantische inhoud en laagwaardige spectrale details in de tokens veroorzaakt, door gebruik te maken van een diffusiedecoder. Experimenten tonen aan dat onze aanpak state-of-the-art reconstructieprestaties bereikt en een betere interpreteerbaarheid mogelijk maakt die aansluit bij het menselijk visuele systeem. Bovendien bereiken autoregressieve modellen die getraind zijn op onze tokenreeksen prestaties die vergelijkbaar zijn met de huidige state-of-the-art methoden, terwijl ze minder tokens nodig hebben voor training en inferentie.
English
We introduce a novel visual tokenization framework that embeds a provable
PCA-like structure into the latent token space. While existing visual
tokenizers primarily optimize for reconstruction fidelity, they often neglect
the structural properties of the latent space -- a critical factor for both
interpretability and downstream tasks. Our method generates a 1D causal token
sequence for images, where each successive token contributes non-overlapping
information with mathematically guaranteed decreasing explained variance,
analogous to principal component analysis. This structural constraint ensures
the tokenizer extracts the most salient visual features first, with each
subsequent token adding diminishing yet complementary information.
Additionally, we identified and resolved a semantic-spectrum coupling effect
that causes the unwanted entanglement of high-level semantic content and
low-level spectral details in the tokens by leveraging a diffusion decoder.
Experiments demonstrate that our approach achieves state-of-the-art
reconstruction performance and enables better interpretability to align with
the human vision system. Moreover, auto-regressive models trained on our token
sequences achieve performance comparable to current state-of-the-art methods
while requiring fewer tokens for training and inference.Summary
AI-Generated Summary