ChatPaper.aiChatPaper

Heptapod: Taalmodelering op Visuele Signalen

Heptapod: Language Modeling on Visual Signals

October 8, 2025
Auteurs: Yongxin Zhu, Jiawei Chen, Yuanzhe Chen, Zhuo Chen, Dongya Jia, Jian Cong, Xiaobin Zhuang, Yuping Wang, Yuxuan Wang
cs.AI

Samenvatting

We introduceren Heptapod, een autoregressief beeldmodel dat zich houdt aan de fundamentele principes van taalmodellering. Heptapod maakt gebruik van causale aandacht, elimineert de afhankelijkheid van CFG en wijkt af van de trend van semantische tokenizers. Onze belangrijkste innovatie is de voorspelling van de volgende 2D-distributie: een causaal Transformer-model met een visuele tokenizer gericht op reconstructie, leert de distributie over het gehele 2D-ruimtelijke rooster van beelden te voorspellen bij elke tijdstap. Dit leerdoel verenigt de sequentiële modellering van het autoregressieve raamwerk met de holistische zelfsupervisie van gemaskeerde auto-encoding, waardoor het model in staat is om uitgebreide beeld semantiek vast te leggen via generatieve training. Op de ImageNet-generatiebenchmark behaalt Heptapod een FID van 2,70, wat aanzienlijk beter is dan eerdere causale autoregressieve benaderingen. We hopen dat ons werk een principieel herdenken van taalmodellering op visuele signalen en daarbuiten inspireert.
English
We introduce Heptapod, an image autoregressive model that adheres to the foundational principles of language modeling. Heptapod employs causal attention, eliminates reliance on CFG, and eschews the trend of semantic tokenizers. Our key innovation is next 2D distribution prediction: a causal Transformer with reconstruction-focused visual tokenizer, learns to predict the distribution over the entire 2D spatial grid of images at each timestep. This learning objective unifies the sequential modeling of autoregressive framework with the holistic self-supervised learning of masked autoencoding, enabling the model to capture comprehensive image semantics via generative training. On the ImageNet generation benchmark, Heptapod achieves an FID of 2.70, significantly outperforming previous causal autoregressive approaches. We hope our work inspires a principled rethinking of language modeling on visual signals and beyond.
PDF31October 9, 2025