ChatPaper.aiChatPaper

Modelado de Imágenes Equivariante

Equivariant Image Modeling

March 24, 2025
Autores: Ruixiao Dong, Mengde Xu, Zigang Geng, Li Li, Han Hu, Shuyang Gu
cs.AI

Resumen

Los modelos generativos actuales, como los enfoques autorregresivos y de difusión, descomponen el aprendizaje de distribuciones de datos de alta dimensionalidad en una serie de subtareas más simples. Sin embargo, surgen conflictos inherentes durante la optimización conjunta de estas subtareas, y las soluciones existentes no logran resolver dichos conflictos sin sacrificar la eficiencia o la escalabilidad. Proponemos un novedoso marco de modelado de imágenes equivariante que alinea intrínsecamente los objetivos de optimización entre subtareas al aprovechar la invariancia traslacional de las señales visuales naturales. Nuestro método introduce (1) una tokenización por columnas que mejora la simetría traslacional a lo largo del eje horizontal, y (2) una atención causal en ventanas que refuerza relaciones contextuales consistentes entre posiciones. Evaluado en la generación de imágenes condicionadas por clase en ImageNet a una resolución de 256x256, nuestro enfoque alcanza un rendimiento comparable al de los modelos AR de última generación mientras utiliza menos recursos computacionales. Un análisis sistemático demuestra que una mayor equivariancia reduce los conflictos entre tareas, mejorando significativamente la generalización en modo zero-shot y permitiendo la síntesis de imágenes ultra largas. Este trabajo establece el primer marco para la descomposición alineada de tareas en el modelado generativo, ofreciendo ideas sobre el uso eficiente de parámetros compartidos y la optimización libre de conflictos. El código y los modelos están disponibles públicamente en https://github.com/drx-code/EquivariantModeling.
English
Current generative models, such as autoregressive and diffusion approaches, decompose high-dimensional data distribution learning into a series of simpler subtasks. However, inherent conflicts arise during the joint optimization of these subtasks, and existing solutions fail to resolve such conflicts without sacrificing efficiency or scalability. We propose a novel equivariant image modeling framework that inherently aligns optimization targets across subtasks by leveraging the translation invariance of natural visual signals. Our method introduces (1) column-wise tokenization which enhances translational symmetry along the horizontal axis, and (2) windowed causal attention which enforces consistent contextual relationships across positions. Evaluated on class-conditioned ImageNet generation at 256x256 resolution, our approach achieves performance comparable to state-of-the-art AR models while using fewer computational resources. Systematic analysis demonstrates that enhanced equivariance reduces inter-task conflicts, significantly improving zero-shot generalization and enabling ultra-long image synthesis. This work establishes the first framework for task-aligned decomposition in generative modeling, offering insights into efficient parameter sharing and conflict-free optimization. The code and models are publicly available at https://github.com/drx-code/EquivariantModeling.

Summary

AI-Generated Summary

PDF151March 25, 2025