Diffusione Cubica Discreta: Generazione Visiva Discreta su Token di Rappresentazione ad Alta Dimensionalità

Abstract

La generazione visiva tramite token discreti ha guadagnato notevole attenzione in quanto abilita un paradigma unificato di previsione dei token condiviso con i modelli linguistici, promettendo architetture multimodali senza soluzione di continuità. Tuttavia, gli attuali metodi di generazione discreta rimangono limitati a token latenti a bassa dimensionalità (tipicamente 8-32 dimensioni), sacrificando la ricchezza semantica essenziale per la comprensione. Sebbene rappresentazioni pre-addestrate ad alta dimensionalità (768-1024 dimensioni) potrebbero colmare questa lacuna, la loro generazione discreta presenta sfide fondamentali. In questo articolo, presentiamo Cubic Discrete Diffusion (CubiD), il primo modello di generazione discreta per rappresentazioni ad alta dimensionalità. CubiD esegue un mascheramento granulare sull'intera rappresentazione discreta ad alta dimensionalità: qualsiasi dimensione in qualsiasi posizione può essere mascherata e predetta da osservazioni parziali. Ciò consente al modello di apprendere ricche correlazioni sia all'interno che tra le posizioni spaziali, con il numero di passi di generazione fissato a T indipendentemente dalla dimensionalità delle feature, dove T << hwd. Su ImageNet-256, CubiD raggiunge uno stato dell'arte nella generazione discreta con un forte comportamento di scaling da 900M a 3.7B di parametri. Crucialmente, validiamo che questi token discretizzati preservino le capacità rappresentative originali, dimostrando che gli stessi token discreti possono servire efficacemente sia compiti di comprensione che di generazione. Auspichiamo che questo lavoro ispiri future ricerche verso architetture multimodali unificate. Il codice è disponibile all'indirizzo: https://github.com/YuqingWang1029/CubiD.

English

Visual generation with discrete tokens has gained significant attention as it enables a unified token prediction paradigm shared with language models, promising seamless multimodal architectures. However, current discrete generation methods remain limited to low-dimensional latent tokens (typically 8-32 dims), sacrificing the semantic richness essential for understanding. While high-dimensional pretrained representations (768-1024 dims) could bridge this gap, their discrete generation poses fundamental challenges. In this paper, we present Cubic Discrete Diffusion (CubiD), the first discrete generation model for high-dimensional representations. CubiD performs fine-grained masking throughout the high-dimensional discrete representation -- any dimension at any position can be masked and predicted from partial observations. This enables the model to learn rich correlations both within and across spatial positions, with the number of generation steps fixed at T regardless of feature dimensionality, where T ll hwd. On ImageNet-256, CubiD achieves state-of-the-art discrete generation with strong scaling behavior from 900M to 3.7B parameters. Crucially, we validate that these discretized tokens preserve original representation capabilities, demonstrating that the same discrete tokens can effectively serve both understanding and generation tasks. We hope this work will inspire future research toward unified multimodal architectures. Code is available at: https://github.com/YuqingWang1029/CubiD.

Diffusione Cubica Discreta: Generazione Visiva Discreta su Token di Rappresentazione ad Alta Dimensionalità

Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens

Abstract

Support