CaTok: Addomesticare i Flussi Medi per la Tokenizzazione Causale Unidimensionale delle Immagini
CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization
March 6, 2026
Autori: Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang
cs.AI
Abstract
I modelli linguistici autoregressivi (AR) si basano su una tokenizzazione causale, ma estendere questo paradigma alla visione rimane non banale. Gli attuali tokenizzatori visivi appiattiscono le patch 2D in sequenze non causali o impongono ordinamenti euristici che non si allineano con il pattern di "predizione del token successivo". I recenti autoencoder diffusivi similmente non sono all'altezza: condizionare il decoder su tutti i token manca di causalità, mentre applicare un meccanismo di nested dropout introduce uno squilibrio. Per affrontare queste sfide, presentiamo CaTok, un tokenizzatore di immagini causale 1D con un decoder MeanFlow. Selezionando token su intervalli temporali e vincolandoli all'obiettivo MeanFlow, come illustrato in Fig. 1, CaTok apprende rappresentazioni causali 1D che supportano sia una generazione one-step veloce sia un campionamento multi-step ad alta fedeltà, catturando naturalmente diversi concetti visivi attraverso gli intervalli di token. Per stabilizzare e accelerare ulteriormente l'addestramento, proponiamo una semplice regolarizzazione REPA-A, che allinea le feature dell'encoder con i Modelli Fondazionali per la Visione (VFMs). Gli esperimenti dimostrano che CaTok raggiunge risultati allo stato dell'arte nella ricostruzione su ImageNet, raggiungendo 0.75 FID, 22.53 PSNR e 0.674 SSIM con meno epoche di addestramento, e il modello AR ottiene prestazioni comparabili agli approcci leader.
English
Autoregressive (AR) language models rely on causal tokenization, but extending this paradigm to vision remains non-trivial. Current visual tokenizers either flatten 2D patches into non-causal sequences or enforce heuristic orderings that misalign with the "next-token prediction" pattern. Recent diffusion autoencoders similarly fall short: conditioning the decoder on all tokens lacks causality, while applying nested dropout mechanism introduces imbalance. To address these challenges, we present CaTok, a 1D causal image tokenizer with a MeanFlow decoder. By selecting tokens over time intervals and binding them to the MeanFlow objective, as illustrated in Fig. 1, CaTok learns causal 1D representations that support both fast one-step generation and high-fidelity multi-step sampling, while naturally capturing diverse visual concepts across token intervals. To further stabilize and accelerate training, we propose a straightforward regularization REPA-A, which aligns encoder features with Vision Foundation Models (VFMs). Experiments demonstrate that CaTok achieves state-of-the-art results on ImageNet reconstruction, reaching 0.75 FID, 22.53 PSNR and 0.674 SSIM with fewer training epochs, and the AR model attains performance comparable to leading approaches.