Heptapod: Modelagem de Linguagem em Sinais Visuais
Heptapod: Language Modeling on Visual Signals
October 8, 2025
Autores: Yongxin Zhu, Jiawei Chen, Yuanzhe Chen, Zhuo Chen, Dongya Jia, Jian Cong, Xiaobin Zhuang, Yuping Wang, Yuxuan Wang
cs.AI
Resumo
Apresentamos o Heptapod, um modelo autoregressivo de imagens que adere aos princípios fundamentais da modelagem de linguagem. O Heptapod emprega atenção causal, elimina a dependência de CFG (Class-Free Guidance) e rejeita a tendência de tokenizadores semânticos. Nossa principal inovação é a previsão de distribuição 2D seguinte: um Transformer causal com um tokenizador visual focado em reconstrução, que aprende a prever a distribuição sobre toda a grade espacial 2D de imagens em cada passo de tempo. Esse objetivo de aprendizagem unifica a modelagem sequencial do framework autoregressivo com a aprendizagem auto-supervisionada holística de auto-codificação mascarada, permitindo que o modelo capture a semântica abrangente das imagens por meio de treinamento generativo. No benchmark de geração do ImageNet, o Heptapod alcança um FID de 2,70, superando significativamente as abordagens autoregressivas causais anteriores. Esperamos que nosso trabalho inspire uma reconsideração fundamentada da modelagem de linguagem em sinais visuais e além.
English
We introduce Heptapod, an image autoregressive model that adheres to the
foundational principles of language modeling. Heptapod employs causal
attention, eliminates reliance on CFG, and eschews the trend
of semantic tokenizers. Our key innovation is next 2D distribution
prediction: a causal Transformer with reconstruction-focused visual tokenizer,
learns to predict the distribution over the entire 2D spatial grid of images at
each timestep. This learning objective unifies the sequential modeling of
autoregressive framework with the holistic self-supervised learning of masked
autoencoding, enabling the model to capture comprehensive image semantics via
generative training. On the ImageNet generation benchmark, Heptapod achieves an
FID of 2.70, significantly outperforming previous causal autoregressive
approaches. We hope our work inspires a principled rethinking of language
modeling on visual signals and beyond.