CaTok: Bändigung mittlerer Flüsse für eindimensionale kausale Bild-Tokenisierung

Zusammenfassung

Autoregressive (AR-)Sprachmodelle basieren auf kausaler Tokenisierung, doch die Übertragung dieses Paradigmas auf den visuellen Bereich bleibt eine Herausforderung. Aktuelle visuelle Tokenizer glätten entweder 2D-Patches zu nicht-kausalen Sequenzen oder erzwingen heuristische Ordnungen, die sich nicht mit dem "Next-Token-Prediction"-Muster decken. Neuere Diffusions-Autoencoder zeigen ähnliche Defizite: Die Konditionierung des Decoders auf alle Token entbehrt der Kausalität, während der Einsatz von Nested-Dropout-Mechanismen ein Ungleichgewicht verursacht. Um diese Probleme zu lösen, stellen wir CaTok vor, einen 1D-kausalen Bild-Tokenizer mit einem MeanFlow-Decoder. Durch die Auswahl von Token über Zeitintervalle und ihre Bindung an das MeanFlow-Ziel, wie in Abb. 1 dargestellt, lernt CaTok kausale 1D-Repräsentationen, die sowohl schnelle One-Step-Generierung als auch hochwertiges Multi-Step-Sampling unterstützen und gleichzeitig verschiedene visuelle Konzepte über Token-Intervalle hinweg natürlicherweise erfassen. Um das Training weiter zu stabilisieren und zu beschleunigen, schlagen wir eine einfache Regularisierung REPA-A vor, die Encoder-Merkmale mit Vision Foundation Models (VFMs) in Einklang bringt. Experimente zeigen, dass CaTok state-of-the-art Ergebnisse bei der ImageNet-Rekonstruktion erzielt und mit 0.75 FID, 22.53 PSNR und 0.674 SSIM bei weniger Trainingsepochen erreicht, während das AR-Modell eine mit führenden Ansätzen vergleichbare Leistung erzielt.

English

Autoregressive (AR) language models rely on causal tokenization, but extending this paradigm to vision remains non-trivial. Current visual tokenizers either flatten 2D patches into non-causal sequences or enforce heuristic orderings that misalign with the "next-token prediction" pattern. Recent diffusion autoencoders similarly fall short: conditioning the decoder on all tokens lacks causality, while applying nested dropout mechanism introduces imbalance. To address these challenges, we present CaTok, a 1D causal image tokenizer with a MeanFlow decoder. By selecting tokens over time intervals and binding them to the MeanFlow objective, as illustrated in Fig. 1, CaTok learns causal 1D representations that support both fast one-step generation and high-fidelity multi-step sampling, while naturally capturing diverse visual concepts across token intervals. To further stabilize and accelerate training, we propose a straightforward regularization REPA-A, which aligns encoder features with Vision Foundation Models (VFMs). Experiments demonstrate that CaTok achieves state-of-the-art results on ImageNet reconstruction, reaching 0.75 FID, 22.53 PSNR and 0.674 SSIM with fewer training epochs, and the AR model attains performance comparable to leading approaches.

CaTok: Bändigung mittlerer Flüsse für eindimensionale kausale Bild-Tokenisierung

CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

Zusammenfassung

Support