Modelado de Imágenes Equivariante
Equivariant Image Modeling
March 24, 2025
Autores: Ruixiao Dong, Mengde Xu, Zigang Geng, Li Li, Han Hu, Shuyang Gu
cs.AI
Resumen
Los modelos generativos actuales, como los enfoques autorregresivos y de difusión, descomponen el aprendizaje de distribuciones de datos de alta dimensionalidad en una serie de subtareas más simples. Sin embargo, surgen conflictos inherentes durante la optimización conjunta de estas subtareas, y las soluciones existentes no logran resolver dichos conflictos sin sacrificar la eficiencia o la escalabilidad. Proponemos un novedoso marco de modelado de imágenes equivariante que alinea intrínsecamente los objetivos de optimización entre subtareas al aprovechar la invariancia traslacional de las señales visuales naturales. Nuestro método introduce (1) una tokenización por columnas que mejora la simetría traslacional a lo largo del eje horizontal, y (2) una atención causal en ventanas que refuerza relaciones contextuales consistentes entre posiciones. Evaluado en la generación de imágenes condicionadas por clase en ImageNet a una resolución de 256x256, nuestro enfoque alcanza un rendimiento comparable al de los modelos AR de última generación mientras utiliza menos recursos computacionales. Un análisis sistemático demuestra que una mayor equivariancia reduce los conflictos entre tareas, mejorando significativamente la generalización en modo zero-shot y permitiendo la síntesis de imágenes ultra largas. Este trabajo establece el primer marco para la descomposición alineada de tareas en el modelado generativo, ofreciendo ideas sobre el uso eficiente de parámetros compartidos y la optimización libre de conflictos. El código y los modelos están disponibles públicamente en https://github.com/drx-code/EquivariantModeling.
English
Current generative models, such as autoregressive and diffusion approaches,
decompose high-dimensional data distribution learning into a series of simpler
subtasks. However, inherent conflicts arise during the joint optimization of
these subtasks, and existing solutions fail to resolve such conflicts without
sacrificing efficiency or scalability. We propose a novel equivariant image
modeling framework that inherently aligns optimization targets across subtasks
by leveraging the translation invariance of natural visual signals. Our method
introduces (1) column-wise tokenization which enhances translational symmetry
along the horizontal axis, and (2) windowed causal attention which enforces
consistent contextual relationships across positions. Evaluated on
class-conditioned ImageNet generation at 256x256 resolution, our approach
achieves performance comparable to state-of-the-art AR models while using fewer
computational resources. Systematic analysis demonstrates that enhanced
equivariance reduces inter-task conflicts, significantly improving zero-shot
generalization and enabling ultra-long image synthesis. This work establishes
the first framework for task-aligned decomposition in generative modeling,
offering insights into efficient parameter sharing and conflict-free
optimization. The code and models are publicly available at
https://github.com/drx-code/EquivariantModeling.Summary
AI-Generated Summary