Heptapod: Modelado del Lenguaje en Señales Visuales
Heptapod: Language Modeling on Visual Signals
October 8, 2025
Autores: Yongxin Zhu, Jiawei Chen, Yuanzhe Chen, Zhuo Chen, Dongya Jia, Jian Cong, Xiaobin Zhuang, Yuping Wang, Yuxuan Wang
cs.AI
Resumen
Presentamos Heptapod, un modelo autoregresivo de imágenes que se adhiere a los principios fundamentales del modelado del lenguaje. Heptapod emplea atención causal, elimina la dependencia de CFG y evita la tendencia de los tokenizadores semánticos. Nuestra innovación clave es la predicción de la distribución 2D siguiente: un Transformer causal con un tokenizador visual centrado en la reconstrucción, aprende a predecir la distribución sobre toda la cuadrícula espacial 2D de las imágenes en cada paso de tiempo. Este objetivo de aprendizaje unifica el modelado secuencial del marco autoregresivo con el aprendizaje autosupervisado holístico del autoenmascaramiento, permitiendo que el modelo capture la semántica integral de las imágenes mediante entrenamiento generativo. En el benchmark de generación de ImageNet, Heptapod alcanza un FID de 2.70, superando significativamente enfoques autoregresivos causales anteriores. Esperamos que nuestro trabajo inspire una reconsideración fundamentada del modelado del lenguaje en señales visuales y más allá.
English
We introduce Heptapod, an image autoregressive model that adheres to the
foundational principles of language modeling. Heptapod employs causal
attention, eliminates reliance on CFG, and eschews the trend
of semantic tokenizers. Our key innovation is next 2D distribution
prediction: a causal Transformer with reconstruction-focused visual tokenizer,
learns to predict the distribution over the entire 2D spatial grid of images at
each timestep. This learning objective unifies the sequential modeling of
autoregressive framework with the holistic self-supervised learning of masked
autoencoding, enabling the model to capture comprehensive image semantics via
generative training. On the ImageNet generation benchmark, Heptapod achieves an
FID of 2.70, significantly outperforming previous causal autoregressive
approaches. We hope our work inspires a principled rethinking of language
modeling on visual signals and beyond.