CaTok: Укрощение средних потоков для одномерной причинной токенизации изображений

Аннотация

Авторегрессионные (AR) языковые модели опираются на причинную токенизацию, однако распространение этой парадигмы на область компьютерного зрения остается нетривиальной задачей. Современные визуальные токенизаторы либо преобразуют 2D-патчи в неупорядоченные последовательности, либо накладывают эвристические порядки, которые не соответствуют паттерну «предсказания следующего токена». Недавно предложенные диффузионные автоэнкодеры также демонстрируют ограничения: условие декодера на всех токенах лишено причинности, а применение механизма вложенного дропаута приводит к дисбалансу. Для решения этих проблем мы представляем CaTok — 1D причинный токенизатор изображений с декодером MeanFlow. Путем выбора токенов в течение временных интервалов и их привязки к целевой функции MeanFlow, как показано на Рис. 1, CaTok обучается причинным 1D-представлениям, которые поддерживают как быстрое одношаговое генерацию, так и многошаговую выборку высокой точности, одновременно естественным образом захватывая разнообразные визуальные концепции в интервалах токенов. Для дальнейшей стабилизации и ускорения обучения мы предлагаем простую регуляризацию REPA-A, которая выравнивает признаки энкодера с моделями Vision Foundation Models (VFMs). Эксперименты показывают, что CaTok достигает state-of-the-art результатов в реконструкции ImageNet, демонстрируя значения 0.75 FID, 22.53 PSNR и 0.674 SSIM при меньшем количестве эпох обучения, а AR-модель показывает производительность, сопоставимую с ведущими подходами.

English

Autoregressive (AR) language models rely on causal tokenization, but extending this paradigm to vision remains non-trivial. Current visual tokenizers either flatten 2D patches into non-causal sequences or enforce heuristic orderings that misalign with the "next-token prediction" pattern. Recent diffusion autoencoders similarly fall short: conditioning the decoder on all tokens lacks causality, while applying nested dropout mechanism introduces imbalance. To address these challenges, we present CaTok, a 1D causal image tokenizer with a MeanFlow decoder. By selecting tokens over time intervals and binding them to the MeanFlow objective, as illustrated in Fig. 1, CaTok learns causal 1D representations that support both fast one-step generation and high-fidelity multi-step sampling, while naturally capturing diverse visual concepts across token intervals. To further stabilize and accelerate training, we propose a straightforward regularization REPA-A, which aligns encoder features with Vision Foundation Models (VFMs). Experiments demonstrate that CaTok achieves state-of-the-art results on ImageNet reconstruction, reaching 0.75 FID, 22.53 PSNR and 0.674 SSIM with fewer training epochs, and the AR model attains performance comparable to leading approaches.

CaTok: Укрощение средних потоков для одномерной причинной токенизации изображений

CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

Аннотация

Support