"Hoofdcomponenten" maken een nieuwe beeldtaal mogelijk

Samenvatting

We introduceren een nieuw visueel tokenisatiekader dat een bewijsbare PCA-achtige structuur in de latente tokenruimte incorporeert. Terwijl bestaande visuele tokenizers voornamelijk optimaliseren voor reconstructiefideliteit, verwaarlozen ze vaak de structurele eigenschappen van de latente ruimte — een cruciaal aspect voor zowel interpreteerbaarheid als downstream taken. Onze methode genereert een 1D causale tokenreeks voor afbeeldingen, waarbij elke opeenvolgende token niet-overlappende informatie bijdraagt met wiskundig gegarandeerde afnemende verklaarde variantie, analoog aan hoofdcomponentenanalyse. Deze structurele beperking zorgt ervoor dat de tokenizer eerst de meest opvallende visuele kenmerken extraheert, waarbij elke volgende token afnemende maar complementaire informatie toevoegt. Daarnaast hebben we een semantisch-spectrumkoppelingseffect geïdentificeerd en opgelost dat ongewenste verstrengeling van hoogwaardige semantische inhoud en laagwaardige spectrale details in de tokens veroorzaakt, door gebruik te maken van een diffusiedecoder. Experimenten tonen aan dat onze aanpak state-of-the-art reconstructieprestaties bereikt en een betere interpreteerbaarheid mogelijk maakt die aansluit bij het menselijk visuele systeem. Bovendien bereiken autoregressieve modellen die getraind zijn op onze tokenreeksen prestaties die vergelijkbaar zijn met de huidige state-of-the-art methoden, terwijl ze minder tokens nodig hebben voor training en inferentie.

English

We introduce a novel visual tokenization framework that embeds a provable PCA-like structure into the latent token space. While existing visual tokenizers primarily optimize for reconstruction fidelity, they often neglect the structural properties of the latent space -- a critical factor for both interpretability and downstream tasks. Our method generates a 1D causal token sequence for images, where each successive token contributes non-overlapping information with mathematically guaranteed decreasing explained variance, analogous to principal component analysis. This structural constraint ensures the tokenizer extracts the most salient visual features first, with each subsequent token adding diminishing yet complementary information. Additionally, we identified and resolved a semantic-spectrum coupling effect that causes the unwanted entanglement of high-level semantic content and low-level spectral details in the tokens by leveraging a diffusion decoder. Experiments demonstrate that our approach achieves state-of-the-art reconstruction performance and enables better interpretability to align with the human vision system. Moreover, auto-regressive models trained on our token sequences achieve performance comparable to current state-of-the-art methods while requiring fewer tokens for training and inference.

"Hoofdcomponenten" maken een nieuwe beeldtaal mogelijk

"Principal Components" Enable A New Language of Images

Samenvatting

Support