NextStep-1: 연속 토큰을 활용한 대규모 자기회귀적 이미지 생성 모델 연구
NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale
August 14, 2025
저자: NextStep Team, Chunrui Han, Guopeng Li, Jingwei Wu, Quan Sun, Yan Cai, Yuang Peng, Zheng Ge, Deyu Zhou, Haomiao Tang, Hongyu Zhou, Kenkun Liu, Ailin Huang, Bin Wang, Changxin Miao, Deshan Sun, En Yu, Fukun Yin, Gang Yu, Hao Nie, Haoran Lv, Hanpeng Hu, Jia Wang, Jian Zhou, Jianjian Sun, Kaijun Tan, Kang An, Kangheng Lin, Liang Zhao, Mei Chen, Peng Xing, Rui Wang, Shiyu Liu, Shutao Xia, Tianhao You, Wei Ji, Xianfang Zeng, Xin Han, Xuelin Zhang, Yana Wei, Yanming Xu, Yimin Jiang, Yingming Wang, Yu Zhou, Yucheng Han, Ziyang Meng, Binxing Jiao, Daxin Jiang, Xiangyu Zhang, Yibo Zhu
cs.AI
초록
텍스트-이미지 생성을 위한 기존의 자기회귀(AR) 모델들은 연속적인 이미지 토큰을 처리하기 위해 계산 집약적인 확산 모델에 의존하거나, 양자화 손실이 발생하는 이산 토큰을 얻기 위해 벡터 양자화(VQ)를 사용합니다. 본 논문에서는 NextStep-1이라는 14B 크기의 자기회귀 모델과 157M 크기의 플로우 매칭 헤드를 결합하여, 이산 텍스트 토큰과 연속적인 이미지 토큰을 다음 토큰 예측 목표로 학습시키는 방식으로 자기회귀 패러다임을 한 단계 더 발전시켰습니다. NextStep-1은 텍스트-이미지 생성 작업에서 자기회귀 모델의 최신 성능을 달성하며, 고품질 이미지 합성에서 강력한 능력을 보여줍니다. 또한, 우리의 방법은 이미지 편집에서도 뛰어난 성능을 보여주며, 통합 접근법의 강력함과 다양성을 입증합니다. 개방형 연구를 촉진하기 위해, 우리는 코드와 모델을 커뮤니티에 공개할 예정입니다.
English
Prevailing autoregressive (AR) models for text-to-image generation either
rely on heavy, computationally-intensive diffusion models to process continuous
image tokens, or employ vector quantization (VQ) to obtain discrete tokens with
quantization loss. In this paper, we push the autoregressive paradigm forward
with NextStep-1, a 14B autoregressive model paired with a 157M flow matching
head, training on discrete text tokens and continuous image tokens with
next-token prediction objectives. NextStep-1 achieves state-of-the-art
performance for autoregressive models in text-to-image generation tasks,
exhibiting strong capabilities in high-fidelity image synthesis. Furthermore,
our method shows strong performance in image editing, highlighting the power
and versatility of our unified approach. To facilitate open research, we will
release our code and models to the community.