ChatPaper.aiChatPaper

CaTok: 1차원 인과적 이미지 토큰화를 위한 평균 흐름 제어

CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

March 6, 2026
저자: Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang
cs.AI

초록

자기회귀(AR) 언어 모델은 인과적 토큰화에 의존하지만, 이러한 패러다임을 시각 영역으로 확장하는 것은 여전히 쉽지 않다. 기존 시각 토큰화 방법은 2D 패치를 비인과적 시퀀스로 평탄화하거나 "다음 토큰 예측" 패턴과 정렬되지 않은 휴리스틱 순서를 강제한다. 최근의 확산 오토인코더도 유사한 한계를 보인다: 디코더에 모든 토큰을 조건으로 주는 것은 인과성을 결여하고, 중첩 드롭아웃 메커니즘을 적용하면 불균형이 발생한다. 이러한 문제를 해결하기 위해 우리는 MeanFlow 디코더를 갖춘 1D 인과적 이미지 토큰화기 CaTok을 제안한다. 그림 1에서와 같이 시간 간격에 걸쳐 토큰을 선택하고 이를 MeanFlow 목적 함수에 연결함으로써, CaTok은 빠른 one-step 생성과 고품질 multi-step 샘플링을 모두 지원하면서 토큰 간격에 걸친 다양한 시각 개념을 자연스럽게 포착하는 인과적 1D 표현을 학습한다. 훈련의 안정화와 가속화를 더욱 위해, 우리는 인코더 특징을 Vision Foundation Model(VFM)과 정렬하는 간단한 정규화 방법 REPA-A를 제안한다. 실험 결과, CaTok은 더 적은 훈련 에포크로 ImageNet 재구성에서 0.75 FID, 22.53 PSNR, 0.674 SSIM의 최첨단 성능을 달성했으며, AR 모델은 선도적 접근법에 버금가는 성능을 보였다.
English
Autoregressive (AR) language models rely on causal tokenization, but extending this paradigm to vision remains non-trivial. Current visual tokenizers either flatten 2D patches into non-causal sequences or enforce heuristic orderings that misalign with the "next-token prediction" pattern. Recent diffusion autoencoders similarly fall short: conditioning the decoder on all tokens lacks causality, while applying nested dropout mechanism introduces imbalance. To address these challenges, we present CaTok, a 1D causal image tokenizer with a MeanFlow decoder. By selecting tokens over time intervals and binding them to the MeanFlow objective, as illustrated in Fig. 1, CaTok learns causal 1D representations that support both fast one-step generation and high-fidelity multi-step sampling, while naturally capturing diverse visual concepts across token intervals. To further stabilize and accelerate training, we propose a straightforward regularization REPA-A, which aligns encoder features with Vision Foundation Models (VFMs). Experiments demonstrate that CaTok achieves state-of-the-art results on ImageNet reconstruction, reaching 0.75 FID, 22.53 PSNR and 0.674 SSIM with fewer training epochs, and the AR model attains performance comparable to leading approaches.
PDF62March 16, 2026