ChatPaper.aiChatPaper

Heptapod: Моделирование языка на основе визуальных сигналов

Heptapod: Language Modeling on Visual Signals

October 8, 2025
Авторы: Yongxin Zhu, Jiawei Chen, Yuanzhe Chen, Zhuo Chen, Dongya Jia, Jian Cong, Xiaobin Zhuang, Yuping Wang, Yuxuan Wang
cs.AI

Аннотация

Мы представляем Heptapod — авторегрессионную модель для работы с изображениями, которая следует фундаментальным принципам языкового моделирования. Heptapod использует каузальное внимание, устраняет зависимость от CFG и отказывается от тенденции использования семантических токенизаторов. Нашим ключевым нововведением является предсказание двумерного распределения: каузальный Transformer с визуальным токенизатором, ориентированным на реконструкцию, обучается предсказывать распределение по всей двумерной пространственной сетке изображений на каждом временном шаге. Эта задача обучения объединяет последовательное моделирование авторегрессионной структуры с целостным самообучением маскированного автокодирования, что позволяет модели захватывать полную семантику изображений через генеративное обучение. На бенчмарке генерации ImageNet Heptapod достигает FID 2.70, значительно превосходя предыдущие каузальные авторегрессионные подходы. Мы надеемся, что наша работа вдохновит на принципиальный пересмотр языкового моделирования для визуальных сигналов и не только.
English
We introduce Heptapod, an image autoregressive model that adheres to the foundational principles of language modeling. Heptapod employs causal attention, eliminates reliance on CFG, and eschews the trend of semantic tokenizers. Our key innovation is next 2D distribution prediction: a causal Transformer with reconstruction-focused visual tokenizer, learns to predict the distribution over the entire 2D spatial grid of images at each timestep. This learning objective unifies the sequential modeling of autoregressive framework with the holistic self-supervised learning of masked autoencoding, enabling the model to capture comprehensive image semantics via generative training. On the ImageNet generation benchmark, Heptapod achieves an FID of 2.70, significantly outperforming previous causal autoregressive approaches. We hope our work inspires a principled rethinking of language modeling on visual signals and beyond.
PDF31October 9, 2025