立方離散拡散:高次元表現トークンにおける離散的視覚生成
Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens
March 19, 2026
著者: Yuqing Wang, Chuofan Ma, Zhijie Lin, Yao Teng, Lijun Yu, Shuai Wang, Jiaming Han, Jiashi Feng, Yi Jiang, Xihui Liu
cs.AI
要旨
離散トークンを用いた視覚生成は、言語モデルと共有される統一的なトークン予測パラダイムを可能にするため、シームレスなマルチモーダルアーキテクチャの実現を約束するものとして大きな注目を集めている。しかし、現在の離散生成手法は低次元の潜在トークン(典型的には8~32次元)に限定されており、理解に不可欠な意味的豊かさが犠牲になっている。一方、高次元の事前学習済み表現(768~1024次元)はこのギャップを埋めうるが、その離散生成には根本的な課題がある。本論文では、高次元表現における初の離散生成モデルであるCubic Discrete Diffusion(CubiD)を提案する。CubiDは高次元離散表現全体できめ細かなマスキングを実行し——任意の位置の任意の次元をマスキングし部分観測から予測することが可能である。これにより、モデルは空間位置内および位置間の豊かな相関を学習でき、特徴次元数に関わらず生成ステップ数はTに固定される(T ≪ hwd)。ImageNet-256において、CubiDは900Mから3.7Bパラメータにわたる強力なスケーリング特性を示し、離散生成の最先端結果を達成した。重要な点として、これらの離散化トークンが元の表現能力を保持することを検証し、同じ離散トークンが理解タスクと生成タスクの両方に有効に機能することを実証した。本研究が統一マルチモーダルアーキテクチャに向けた将来の研究を促進することを期待する。コードはhttps://github.com/YuqingWang1029/CubiD で公開されている。
English
Visual generation with discrete tokens has gained significant attention as it enables a unified token prediction paradigm shared with language models, promising seamless multimodal architectures. However, current discrete generation methods remain limited to low-dimensional latent tokens (typically 8-32 dims), sacrificing the semantic richness essential for understanding. While high-dimensional pretrained representations (768-1024 dims) could bridge this gap, their discrete generation poses fundamental challenges. In this paper, we present Cubic Discrete Diffusion (CubiD), the first discrete generation model for high-dimensional representations. CubiD performs fine-grained masking throughout the high-dimensional discrete representation -- any dimension at any position can be masked and predicted from partial observations. This enables the model to learn rich correlations both within and across spatial positions, with the number of generation steps fixed at T regardless of feature dimensionality, where T ll hwd. On ImageNet-256, CubiD achieves state-of-the-art discrete generation with strong scaling behavior from 900M to 3.7B parameters. Crucially, we validate that these discretized tokens preserve original representation capabilities, demonstrating that the same discrete tokens can effectively serve both understanding and generation tasks. We hope this work will inspire future research toward unified multimodal architectures. Code is available at: https://github.com/YuqingWang1029/CubiD.