ChatPaper.aiChatPaper

고차원 표현 토큰 기반 이산 시각 생성: 3차원 이산 확산 모델

Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens

March 19, 2026
저자: Yuqing Wang, Chuofan Ma, Zhijie Lin, Yao Teng, Lijun Yu, Shuai Wang, Jiaming Han, Jiashi Feng, Yi Jiang, Xihui Liu
cs.AI

초록

이산 토큰을 활용한 시각 생성은 언어 모델과 공유되는 통합 토큰 예측 패러다임을 가능하게 하여 원활한 다중모달 아키텍처를 약속함으로써 상당한 주목을 받고 있습니다. 그러나 현재의 이산 생성 방법은 일반적으로 8-32차원과 같은 저차원 잠재 토큰에 국한되어 있어, 이해에 필수적인 의미적 풍부함을 희생하고 있습니다. 768-1024차원과 같은 고차원 사전 학습된 표현이 이 격차를 해소할 수 있지만, 이러한 표현의 이산 생성은 근본적인 어려움을 제기합니다. 본 논문에서는 고차원 표현을 위한 최초의 이산 생성 모델인 Cubic Discrete Diffusion(CubiD)을 제시합니다. CubiD는 고차원 이산 표현 전체에 걸쳐 세분화된 마스킹을 수행합니다. 즉, 모든 위치의 모든 차원이 마스킹되고 부분적 관측으로부터 예측될 수 있습니다. 이를 통해 모델은 공간 위치 내 및 위치 간의 풍부한 상관관계를 학습할 수 있으며, 생성 단계 수는 특징 차원 수와 무관하게 T로 고정됩니다(여기서 T ll hwd). ImageNet-256에서 CubiD는 9억 개에서 37억 개의 매개변수에 걸쳐 강력한 확장 성능을 보이며 최첨단 이산 생성 결과를 달성했습니다. 무엇보다도, 이러한 이산화된 토큰이 원래의 표현 능력을 보존한다는 점을 검증하여 동일한 이산 토큰이 이해와 생성 작업 모두에 효과적으로 활용될 수 있음을 입증했습니다. 이 연구가 통합 다중모달 아키텍처를 향한 향후 연구에 영감을 주기를 바랍니다. 코드는 https://github.com/YuqingWang1029/CubiD에서 확인할 수 있습니다.
English
Visual generation with discrete tokens has gained significant attention as it enables a unified token prediction paradigm shared with language models, promising seamless multimodal architectures. However, current discrete generation methods remain limited to low-dimensional latent tokens (typically 8-32 dims), sacrificing the semantic richness essential for understanding. While high-dimensional pretrained representations (768-1024 dims) could bridge this gap, their discrete generation poses fundamental challenges. In this paper, we present Cubic Discrete Diffusion (CubiD), the first discrete generation model for high-dimensional representations. CubiD performs fine-grained masking throughout the high-dimensional discrete representation -- any dimension at any position can be masked and predicted from partial observations. This enables the model to learn rich correlations both within and across spatial positions, with the number of generation steps fixed at T regardless of feature dimensionality, where T ll hwd. On ImageNet-256, CubiD achieves state-of-the-art discrete generation with strong scaling behavior from 900M to 3.7B parameters. Crucially, we validate that these discretized tokens preserve original representation capabilities, demonstrating that the same discrete tokens can effectively serve both understanding and generation tasks. We hope this work will inspire future research toward unified multimodal architectures. Code is available at: https://github.com/YuqingWang1029/CubiD.
PDF261March 21, 2026