Modelagem de Imagem Equivariante
Equivariant Image Modeling
March 24, 2025
Autores: Ruixiao Dong, Mengde Xu, Zigang Geng, Li Li, Han Hu, Shuyang Gu
cs.AI
Resumo
Os modelos generativos atuais, como abordagens autoregressivas e de difusão, decompõem o aprendizado de distribuição de dados de alta dimensionalidade em uma série de subtarefas mais simples. No entanto, conflitos inerentes surgem durante a otimização conjunta dessas subtarefas, e as soluções existentes não conseguem resolver tais conflitos sem sacrificar eficiência ou escalabilidade. Propomos uma nova estrutura de modelagem de imagens equivariante que alinha intrinsecamente os objetivos de otimização entre as subtarefas, aproveitando a invariância à translação dos sinais visuais naturais. Nosso método introduz (1) tokenização por coluna, que melhora a simetria translacional ao longo do eixo horizontal, e (2) atenção causal em janelas, que impõe relações contextuais consistentes entre posições. Avaliado na geração de imagens condicionadas por classe do ImageNet com resolução de 256x256, nossa abordagem alcança desempenho comparável aos modelos AR state-of-the-art, utilizando menos recursos computacionais. Análises sistemáticas demonstram que a equivariância aprimorada reduz os conflitos entre tarefas, melhorando significativamente a generalização zero-shot e permitindo a síntese de imagens ultra-longas. Este trabalho estabelece a primeira estrutura para decomposição alinhada por tarefas em modelagem generativa, oferecendo insights sobre compartilhamento eficiente de parâmetros e otimização livre de conflitos. O código e os modelos estão disponíveis publicamente em https://github.com/drx-code/EquivariantModeling.
English
Current generative models, such as autoregressive and diffusion approaches,
decompose high-dimensional data distribution learning into a series of simpler
subtasks. However, inherent conflicts arise during the joint optimization of
these subtasks, and existing solutions fail to resolve such conflicts without
sacrificing efficiency or scalability. We propose a novel equivariant image
modeling framework that inherently aligns optimization targets across subtasks
by leveraging the translation invariance of natural visual signals. Our method
introduces (1) column-wise tokenization which enhances translational symmetry
along the horizontal axis, and (2) windowed causal attention which enforces
consistent contextual relationships across positions. Evaluated on
class-conditioned ImageNet generation at 256x256 resolution, our approach
achieves performance comparable to state-of-the-art AR models while using fewer
computational resources. Systematic analysis demonstrates that enhanced
equivariance reduces inter-task conflicts, significantly improving zero-shot
generalization and enabling ultra-long image synthesis. This work establishes
the first framework for task-aligned decomposition in generative modeling,
offering insights into efficient parameter sharing and conflict-free
optimization. The code and models are publicly available at
https://github.com/drx-code/EquivariantModeling.Summary
AI-Generated Summary