Heptapod: Modellazione del Linguaggio su Segnali Visivi
Heptapod: Language Modeling on Visual Signals
October 8, 2025
Autori: Yongxin Zhu, Jiawei Chen, Yuanzhe Chen, Zhuo Chen, Dongya Jia, Jian Cong, Xiaobin Zhuang, Yuping Wang, Yuxuan Wang
cs.AI
Abstract
Presentiamo Heptapod, un modello autoregressivo per immagini che aderisce ai principi fondamentali del language modeling. Heptapod utilizza un'attenzione causale, elimina la dipendenza da CFG e si discosta dalla tendenza dei tokenizzatori semantici. La nostra innovazione chiave è la previsione della distribuzione 2D successiva: un Transformer causale con un tokenizzatore visivo focalizzato sulla ricostruzione, impara a prevedere la distribuzione sull'intera griglia spaziale 2D delle immagini ad ogni passo temporale. Questo obiettivo di apprendimento unifica la modellazione sequenziale del framework autoregressivo con l'apprendimento auto-supervisionato olistico del masked autoencoding, consentendo al modello di catturare la semantica completa delle immagini attraverso l'addestramento generativo. Sul benchmark di generazione ImageNet, Heptapod raggiunge un FID di 2.70, superando significativamente i precedenti approcci autoregressivi causali. Speriamo che il nostro lavoro ispiri una riflessione metodica sul language modeling applicato ai segnali visivi e oltre.
English
We introduce Heptapod, an image autoregressive model that adheres to the
foundational principles of language modeling. Heptapod employs causal
attention, eliminates reliance on CFG, and eschews the trend
of semantic tokenizers. Our key innovation is next 2D distribution
prediction: a causal Transformer with reconstruction-focused visual tokenizer,
learns to predict the distribution over the entire 2D spatial grid of images at
each timestep. This learning objective unifies the sequential modeling of
autoregressive framework with the holistic self-supervised learning of masked
autoencoding, enabling the model to capture comprehensive image semantics via
generative training. On the ImageNet generation benchmark, Heptapod achieves an
FID of 2.70, significantly outperforming previous causal autoregressive
approaches. We hope our work inspires a principled rethinking of language
modeling on visual signals and beyond.