ChatPaper.aiChatPaper

Heptapod : Modélisation du langage sur des signaux visuels

Heptapod: Language Modeling on Visual Signals

October 8, 2025
papers.authors: Yongxin Zhu, Jiawei Chen, Yuanzhe Chen, Zhuo Chen, Dongya Jia, Jian Cong, Xiaobin Zhuang, Yuping Wang, Yuxuan Wang
cs.AI

papers.abstract

Nous présentons Heptapod, un modèle autoregressif d’images qui adhère aux principes fondamentaux de la modélisation du langage. Heptapod utilise une attention causale, élimine la dépendance au CFG (Classifier-Free Guidance) et rejette la tendance des tokenizers sémantiques. Notre innovation clé est la prédiction de distribution 2D suivante : un Transformer causal, associé à un tokenizer visuel axé sur la reconstruction, apprend à prédire la distribution sur l’ensemble de la grille spatiale 2D des images à chaque pas de temps. Cet objectif d’apprentissage unifie la modélisation séquentielle du cadre autoregressif avec l’apprentissage auto-supervisé holistique de l’auto-encodage masqué, permettant au modèle de capturer la sémantique complète des images via un entraînement génératif. Sur le benchmark de génération ImageNet, Heptapod atteint un FID de 2,70, surpassant significativement les approches autoregressives causales précédentes. Nous espérons que notre travail inspirera une réflexion approfondie et structurée sur la modélisation du langage appliquée aux signaux visuels et au-delà.
English
We introduce Heptapod, an image autoregressive model that adheres to the foundational principles of language modeling. Heptapod employs causal attention, eliminates reliance on CFG, and eschews the trend of semantic tokenizers. Our key innovation is next 2D distribution prediction: a causal Transformer with reconstruction-focused visual tokenizer, learns to predict the distribution over the entire 2D spatial grid of images at each timestep. This learning objective unifies the sequential modeling of autoregressive framework with the holistic self-supervised learning of masked autoencoding, enabling the model to capture comprehensive image semantics via generative training. On the ImageNet generation benchmark, Heptapod achieves an FID of 2.70, significantly outperforming previous causal autoregressive approaches. We hope our work inspires a principled rethinking of language modeling on visual signals and beyond.
PDF31October 9, 2025