Equivariante Beeldmodellering
Equivariant Image Modeling
March 24, 2025
Auteurs: Ruixiao Dong, Mengde Xu, Zigang Geng, Li Li, Han Hu, Shuyang Gu
cs.AI
Samenvatting
Huidige generatieve modellen, zoals autoregressieve en diffusiebenaderingen, ontbinden het leren van hoogdimensionale dataverdelingen in een reeks eenvoudigere subtaken. Er ontstaan echter inherente conflicten tijdens de gezamenlijke optimalisatie van deze subtaken, en bestaande oplossingen slagen er niet in deze conflicten op te lossen zonder efficiëntie of schaalbaarheid op te offeren. Wij stellen een nieuw equivariant beeldmodelleringsraamwerk voor dat de optimalisatiedoelen van subtaken inherent op één lijn brengt door gebruik te maken van de translatie-invariantie van natuurlijke visuele signalen. Onze methode introduceert (1) kolomsgewijze tokenisatie die de translatiesymmetrie langs de horizontale as versterkt, en (2) venstergebaseerde causale aandacht die consistente contextuele relaties tussen posities afdwingt. Bij evaluatie op klasse-geconditioneerde ImageNet-generatie met een resolutie van 256x256 bereikt onze aanpak prestaties die vergelijkbaar zijn met state-of-the-art AR-modellen, terwijl minder rekenbronnen worden gebruikt. Systematische analyse toont aan dat verbeterde equivariantie inter-taakconflicten vermindert, wat de zero-shot generalisatie aanzienlijk verbetert en ultra-lange beeld-synthese mogelijk maakt. Dit werk introduceert het eerste raamwerk voor taak-uitgelijnde ontbinding in generatieve modellering, en biedt inzichten in efficiënte parametersharing en conflictvrije optimalisatie. De code en modellen zijn publiekelijk beschikbaar op https://github.com/drx-code/EquivariantModeling.
English
Current generative models, such as autoregressive and diffusion approaches,
decompose high-dimensional data distribution learning into a series of simpler
subtasks. However, inherent conflicts arise during the joint optimization of
these subtasks, and existing solutions fail to resolve such conflicts without
sacrificing efficiency or scalability. We propose a novel equivariant image
modeling framework that inherently aligns optimization targets across subtasks
by leveraging the translation invariance of natural visual signals. Our method
introduces (1) column-wise tokenization which enhances translational symmetry
along the horizontal axis, and (2) windowed causal attention which enforces
consistent contextual relationships across positions. Evaluated on
class-conditioned ImageNet generation at 256x256 resolution, our approach
achieves performance comparable to state-of-the-art AR models while using fewer
computational resources. Systematic analysis demonstrates that enhanced
equivariance reduces inter-task conflicts, significantly improving zero-shot
generalization and enabling ultra-long image synthesis. This work establishes
the first framework for task-aligned decomposition in generative modeling,
offering insights into efficient parameter sharing and conflict-free
optimization. The code and models are publicly available at
https://github.com/drx-code/EquivariantModeling.Summary
AI-Generated Summary