CaTok: Het Temmen van Gemiddelde Stromen voor Eén-Dimensionale Causale Beeldtokenisatie
CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization
March 6, 2026
Auteurs: Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang
cs.AI
Samenvatting
Autoregressieve (AR) taalmodelen steunen op causale tokenisatie, maar het uitbreiden van dit paradigma naar visie blijft niet-triviaal. Huidige visuele tokenizers vouwen ofwel 2D-patches uit tot niet-causale reeksen, of leggen heuristische ordeningen op die niet in lijn liggen met het "volgende-token-voorspellingspatroon". Recente diffusie-auto-encoders schieten eveneens tekort: conditionering van de decoder op alle tokens mist causaliteit, terwijl het toepassen van een genest drop-out-mechanisme onevenwicht introduceert. Om deze uitdagingen aan te pakken, presenteren wij CaTok, een 1D causale beeldtokenizer met een MeanFlow-decoder. Door tokens te selecteren over tijdsintervallen en ze te binden aan het MeanFlow-doel, zoals geïllustreerd in Fig. 1, leert CaTok causale 1D-representaties die zowel snelle één-staps-generatie als hoogwaardige meerstaps-bemonstering ondersteunen, terwijl tegelijkertijd diverse visuele concepten natuurlijk worden vastgelegd over de tokenintervallen. Om de training verder te stabiliseren en te versnellen, stellen wij een eenvoudige regularisatie REPA-A voor, die encoderkenmerken afstemt op Vision Foundation Models (VFM's). Experimenten tonen aan dat CaTok state-of-the-art resultaten behaalt voor ImageNet-reconstructie, met een FID van 0.75, een PSNR van 22.53 en een SSIM van 0.674 bij minder trainingsepochs, en dat het AR-model prestaties bereikt die vergelijkbaar zijn met toonaangevende benaderingen.
English
Autoregressive (AR) language models rely on causal tokenization, but extending this paradigm to vision remains non-trivial. Current visual tokenizers either flatten 2D patches into non-causal sequences or enforce heuristic orderings that misalign with the "next-token prediction" pattern. Recent diffusion autoencoders similarly fall short: conditioning the decoder on all tokens lacks causality, while applying nested dropout mechanism introduces imbalance. To address these challenges, we present CaTok, a 1D causal image tokenizer with a MeanFlow decoder. By selecting tokens over time intervals and binding them to the MeanFlow objective, as illustrated in Fig. 1, CaTok learns causal 1D representations that support both fast one-step generation and high-fidelity multi-step sampling, while naturally capturing diverse visual concepts across token intervals. To further stabilize and accelerate training, we propose a straightforward regularization REPA-A, which aligns encoder features with Vision Foundation Models (VFMs). Experiments demonstrate that CaTok achieves state-of-the-art results on ImageNet reconstruction, reaching 0.75 FID, 22.53 PSNR and 0.674 SSIM with fewer training epochs, and the AR model attains performance comparable to leading approaches.