Modelagem de Imagem Equivariante

Resumo

Os modelos generativos atuais, como abordagens autoregressivas e de difusão, decompõem o aprendizado de distribuição de dados de alta dimensionalidade em uma série de subtarefas mais simples. No entanto, conflitos inerentes surgem durante a otimização conjunta dessas subtarefas, e as soluções existentes não conseguem resolver tais conflitos sem sacrificar eficiência ou escalabilidade. Propomos uma nova estrutura de modelagem de imagens equivariante que alinha intrinsecamente os objetivos de otimização entre as subtarefas, aproveitando a invariância à translação dos sinais visuais naturais. Nosso método introduz (1) tokenização por coluna, que melhora a simetria translacional ao longo do eixo horizontal, e (2) atenção causal em janelas, que impõe relações contextuais consistentes entre posições. Avaliado na geração de imagens condicionadas por classe do ImageNet com resolução de 256x256, nossa abordagem alcança desempenho comparável aos modelos AR state-of-the-art, utilizando menos recursos computacionais. Análises sistemáticas demonstram que a equivariância aprimorada reduz os conflitos entre tarefas, melhorando significativamente a generalização zero-shot e permitindo a síntese de imagens ultra-longas. Este trabalho estabelece a primeira estrutura para decomposição alinhada por tarefas em modelagem generativa, oferecendo insights sobre compartilhamento eficiente de parâmetros e otimização livre de conflitos. O código e os modelos estão disponíveis publicamente em https://github.com/drx-code/EquivariantModeling.

English

Current generative models, such as autoregressive and diffusion approaches, decompose high-dimensional data distribution learning into a series of simpler subtasks. However, inherent conflicts arise during the joint optimization of these subtasks, and existing solutions fail to resolve such conflicts without sacrificing efficiency or scalability. We propose a novel equivariant image modeling framework that inherently aligns optimization targets across subtasks by leveraging the translation invariance of natural visual signals. Our method introduces (1) column-wise tokenization which enhances translational symmetry along the horizontal axis, and (2) windowed causal attention which enforces consistent contextual relationships across positions. Evaluated on class-conditioned ImageNet generation at 256x256 resolution, our approach achieves performance comparable to state-of-the-art AR models while using fewer computational resources. Systematic analysis demonstrates that enhanced equivariance reduces inter-task conflicts, significantly improving zero-shot generalization and enabling ultra-long image synthesis. This work establishes the first framework for task-aligned decomposition in generative modeling, offering insights into efficient parameter sharing and conflict-free optimization. The code and models are publicly available at https://github.com/drx-code/EquivariantModeling.

Modelagem de Imagem Equivariante

Equivariant Image Modeling

Resumo

Support