CaTok: Укрощение средних потоков для одномерной причинной токенизации изображений
CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization
March 6, 2026
Авторы: Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang
cs.AI
Аннотация
Авторегрессионные (AR) языковые модели опираются на причинную токенизацию, однако распространение этой парадигмы на область компьютерного зрения остается нетривиальной задачей. Современные визуальные токенизаторы либо преобразуют 2D-патчи в неупорядоченные последовательности, либо накладывают эвристические порядки, которые не соответствуют паттерну «предсказания следующего токена». Недавно предложенные диффузионные автоэнкодеры также демонстрируют ограничения: условие декодера на всех токенах лишено причинности, а применение механизма вложенного дропаута приводит к дисбалансу. Для решения этих проблем мы представляем CaTok — 1D причинный токенизатор изображений с декодером MeanFlow. Путем выбора токенов в течение временных интервалов и их привязки к целевой функции MeanFlow, как показано на Рис. 1, CaTok обучается причинным 1D-представлениям, которые поддерживают как быстрое одношаговое генерацию, так и многошаговую выборку высокой точности, одновременно естественным образом захватывая разнообразные визуальные концепции в интервалах токенов. Для дальнейшей стабилизации и ускорения обучения мы предлагаем простую регуляризацию REPA-A, которая выравнивает признаки энкодера с моделями Vision Foundation Models (VFMs). Эксперименты показывают, что CaTok достигает state-of-the-art результатов в реконструкции ImageNet, демонстрируя значения 0.75 FID, 22.53 PSNR и 0.674 SSIM при меньшем количестве эпох обучения, а AR-модель показывает производительность, сопоставимую с ведущими подходами.
English
Autoregressive (AR) language models rely on causal tokenization, but extending this paradigm to vision remains non-trivial. Current visual tokenizers either flatten 2D patches into non-causal sequences or enforce heuristic orderings that misalign with the "next-token prediction" pattern. Recent diffusion autoencoders similarly fall short: conditioning the decoder on all tokens lacks causality, while applying nested dropout mechanism introduces imbalance. To address these challenges, we present CaTok, a 1D causal image tokenizer with a MeanFlow decoder. By selecting tokens over time intervals and binding them to the MeanFlow objective, as illustrated in Fig. 1, CaTok learns causal 1D representations that support both fast one-step generation and high-fidelity multi-step sampling, while naturally capturing diverse visual concepts across token intervals. To further stabilize and accelerate training, we propose a straightforward regularization REPA-A, which aligns encoder features with Vision Foundation Models (VFMs). Experiments demonstrate that CaTok achieves state-of-the-art results on ImageNet reconstruction, reaching 0.75 FID, 22.53 PSNR and 0.674 SSIM with fewer training epochs, and the AR model attains performance comparable to leading approaches.