CaTok : Dompter les flux moyens pour la tokenisation causale unidimensionnelle d'images

Résumé

Les modèles de langage autorégressifs (AR) reposent sur une tokenisation causale, mais l'extension de ce paradigme à la vision reste non triviale. Les tokeniseurs visuels actuels aplatissent les patchs 2D en séquences non causales ou imposent des ordonnancements heuristiques qui ne sont pas alignés avec le schéma de "prédiction du token suivant". Les autoencodeurs à diffusion récents présentent des limitations similaires : conditionner le décodeur sur tous les tokens manque de causalité, tandis que l'application d'un mécanisme de dropout imbriqué introduit un déséquilibre. Pour relever ces défis, nous présentons CaTok, un tokeniseur d'images causal 1D avec un décodeur MeanFlow. En sélectionnant des tokens sur des intervalles temporels et en les liant à l'objectif MeanFlow, comme illustré dans la Fig. 1, CaTok apprend des représentations causales 1D qui prennent en charge à la fois une génération rapide en une étape et un échantillonnage multi-étapes de haute fidélité, tout en capturant naturellement divers concepts visuels à travers les intervalles de tokens. Pour stabiliser et accélérer davantage l'entraînement, nous proposons une régularisation simple REPA-A, qui aligne les caractéristiques de l'encodeur avec les modèles de fondation visuelle (VFMs). Les expériences démontrent que CaTok obtient des résultats de pointe sur la reconstruction d'ImageNet, atteignant 0,75 FID, 22,53 PSNR et 0,674 SSIM avec moins d'époques d'entraînement, et le modèle AR atteint des performances comparables aux approches leaders.

English

Autoregressive (AR) language models rely on causal tokenization, but extending this paradigm to vision remains non-trivial. Current visual tokenizers either flatten 2D patches into non-causal sequences or enforce heuristic orderings that misalign with the "next-token prediction" pattern. Recent diffusion autoencoders similarly fall short: conditioning the decoder on all tokens lacks causality, while applying nested dropout mechanism introduces imbalance. To address these challenges, we present CaTok, a 1D causal image tokenizer with a MeanFlow decoder. By selecting tokens over time intervals and binding them to the MeanFlow objective, as illustrated in Fig. 1, CaTok learns causal 1D representations that support both fast one-step generation and high-fidelity multi-step sampling, while naturally capturing diverse visual concepts across token intervals. To further stabilize and accelerate training, we propose a straightforward regularization REPA-A, which aligns encoder features with Vision Foundation Models (VFMs). Experiments demonstrate that CaTok achieves state-of-the-art results on ImageNet reconstruction, reaching 0.75 FID, 22.53 PSNR and 0.674 SSIM with fewer training epochs, and the AR model attains performance comparable to leading approaches.

CaTok : Dompter les flux moyens pour la tokenisation causale unidimensionnelle d'images

CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

Résumé

Support