CaTok: Domesticación de Flujos Medios para la Tokenización Causal Unidimensional de Imágenes
CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization
March 6, 2026
Autores: Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang
cs.AI
Resumen
Los modelos de lenguaje autoregresivos (AR) se basan en una tokenización causal, pero extender este paradigma a la visión sigue siendo no trivial. Los tokenizadores visuales actuales o bien aplanan los parches 2D en secuencias no causales o imponen ordenaciones heurísticas que no se alinean con el patrón de "predicción del siguiente token". Los auto codificadores de difusión recientes también se quedan cortos: condicionar el decodificador en todos los tokens carece de causalidad, mientras que aplicar un mecanismo de *dropout* anidado introduce desequilibrio. Para abordar estos desafíos, presentamos CaTok, un tokenizador de imágenes causal 1D con un decodificador MeanFlow. Al seleccionar tokens en intervalos de tiempo y vincularlos al objetivo MeanFlow, como se ilustra en la Fig. 1, CaTok aprende representaciones causales 1D que admiten tanto una generación rápida en un paso como un muestreo de alta fidelidad en múltiples pasos, capturando naturalmente diversos conceptos visuales a través de los intervalos de tokens. Para estabilizar y acelerar aún más el entrenamiento, proponemos una regularización sencilla, REPA-A, que alinea las características del codificador con los Modelos Fundacionales de Visión (VFMs). Los experimentos demuestran que CaTok logra resultados de vanguardia en la reconstrucción de ImageNet, alcanzando 0.75 FID, 22.53 PSNR y 0.674 SSIM con menos épocas de entrenamiento, y el modelo AR alcanza un rendimiento comparable a los enfoques líderes.
English
Autoregressive (AR) language models rely on causal tokenization, but extending this paradigm to vision remains non-trivial. Current visual tokenizers either flatten 2D patches into non-causal sequences or enforce heuristic orderings that misalign with the "next-token prediction" pattern. Recent diffusion autoencoders similarly fall short: conditioning the decoder on all tokens lacks causality, while applying nested dropout mechanism introduces imbalance. To address these challenges, we present CaTok, a 1D causal image tokenizer with a MeanFlow decoder. By selecting tokens over time intervals and binding them to the MeanFlow objective, as illustrated in Fig. 1, CaTok learns causal 1D representations that support both fast one-step generation and high-fidelity multi-step sampling, while naturally capturing diverse visual concepts across token intervals. To further stabilize and accelerate training, we propose a straightforward regularization REPA-A, which aligns encoder features with Vision Foundation Models (VFMs). Experiments demonstrate that CaTok achieves state-of-the-art results on ImageNet reconstruction, reaching 0.75 FID, 22.53 PSNR and 0.674 SSIM with fewer training epochs, and the AR model attains performance comparable to leading approaches.