ChatPaper.aiChatPaper

Heptapod: Sprachmodellierung auf visuellen Signalen

Heptapod: Language Modeling on Visual Signals

October 8, 2025
papers.authors: Yongxin Zhu, Jiawei Chen, Yuanzhe Chen, Zhuo Chen, Dongya Jia, Jian Cong, Xiaobin Zhuang, Yuping Wang, Yuxuan Wang
cs.AI

papers.abstract

Wir stellen Heptapod vor, ein autoregressives Bildmodell, das den grundlegenden Prinzipien des Sprachmodellierens folgt. Heptapod verwendet kausale Aufmerksamkeit, verzichtet auf die Abhängigkeit von CFG und distanziert sich vom Trend semantischer Tokenizer. Unsere zentrale Innovation ist die Vorhersage der nächsten 2D-Verteilung: Ein kausaler Transformer mit einem auf Rekonstruktion ausgerichteten visuellen Tokenizer lernt, die Verteilung über das gesamte 2D-räumliche Raster von Bildern in jedem Zeitschritt vorherzusagen. Dieses Lernziel vereint die sequenzielle Modellierung des autoregressiven Rahmens mit dem ganzheitlichen selbstüberwachten Lernen des maskierten Autoencodings, wodurch das Modell in der Lage ist, umfassende Bildsemantik durch generatives Training zu erfassen. Auf dem ImageNet-Generierungsbenchmark erreicht Heptapod einen FID von 2,70 und übertrifft damit bisherige kausale autoregressive Ansätze deutlich. Wir hoffen, dass unsere Arbeit eine prinzipielle Neubetrachtung des Sprachmodellierens auf visuellen Signalen und darüber hinaus anregt.
English
We introduce Heptapod, an image autoregressive model that adheres to the foundational principles of language modeling. Heptapod employs causal attention, eliminates reliance on CFG, and eschews the trend of semantic tokenizers. Our key innovation is next 2D distribution prediction: a causal Transformer with reconstruction-focused visual tokenizer, learns to predict the distribution over the entire 2D spatial grid of images at each timestep. This learning objective unifies the sequential modeling of autoregressive framework with the holistic self-supervised learning of masked autoencoding, enabling the model to capture comprehensive image semantics via generative training. On the ImageNet generation benchmark, Heptapod achieves an FID of 2.70, significantly outperforming previous causal autoregressive approaches. We hope our work inspires a principled rethinking of language modeling on visual signals and beyond.
PDF31October 9, 2025