ChatPaper.aiChatPaper

NextStep-1: スケーラブルな連続トークンを用いた自己回帰的画像生成に向けて

NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

August 14, 2025
著者: NextStep Team, Chunrui Han, Guopeng Li, Jingwei Wu, Quan Sun, Yan Cai, Yuang Peng, Zheng Ge, Deyu Zhou, Haomiao Tang, Hongyu Zhou, Kenkun Liu, Ailin Huang, Bin Wang, Changxin Miao, Deshan Sun, En Yu, Fukun Yin, Gang Yu, Hao Nie, Haoran Lv, Hanpeng Hu, Jia Wang, Jian Zhou, Jianjian Sun, Kaijun Tan, Kang An, Kangheng Lin, Liang Zhao, Mei Chen, Peng Xing, Rui Wang, Shiyu Liu, Shutao Xia, Tianhao You, Wei Ji, Xianfang Zeng, Xin Han, Xuelin Zhang, Yana Wei, Yanming Xu, Yimin Jiang, Yingming Wang, Yu Zhou, Yucheng Han, Ziyang Meng, Binxing Jiao, Daxin Jiang, Xiangyu Zhang, Yibo Zhu
cs.AI

要旨

既存のテキストから画像生成のための自己回帰(AR)モデルは、連続的な画像トークンを処理するために計算量の多い拡散モデルに依存するか、またはベクトル量子化(VQ)を用いて量子化損失を伴う離散トークンを取得しています。本論文では、NextStep-1という14Bパラメータの自己回帰モデルと157Mのフローマッチングヘッドを組み合わせ、離散テキストトークンと連続画像トークンに対して次トークン予測目標を用いて学習を行うことで、自己回帰パラダイムを前進させます。NextStep-1は、テキストから画像生成タスクにおいて自己回帰モデルとして最先端の性能を達成し、高忠実度の画像合成において強力な能力を示します。さらに、我々の手法は画像編集においても優れた性能を示し、統一されたアプローチの力と汎用性を強調しています。オープンな研究を促進するため、我々はコードとモデルをコミュニティに公開する予定です。
English
Prevailing autoregressive (AR) models for text-to-image generation either rely on heavy, computationally-intensive diffusion models to process continuous image tokens, or employ vector quantization (VQ) to obtain discrete tokens with quantization loss. In this paper, we push the autoregressive paradigm forward with NextStep-1, a 14B autoregressive model paired with a 157M flow matching head, training on discrete text tokens and continuous image tokens with next-token prediction objectives. NextStep-1 achieves state-of-the-art performance for autoregressive models in text-to-image generation tasks, exhibiting strong capabilities in high-fidelity image synthesis. Furthermore, our method shows strong performance in image editing, highlighting the power and versatility of our unified approach. To facilitate open research, we will release our code and models to the community.
PDF541August 15, 2025