Equivariante Beeldmodellering

Samenvatting

Huidige generatieve modellen, zoals autoregressieve en diffusiebenaderingen, ontbinden het leren van hoogdimensionale dataverdelingen in een reeks eenvoudigere subtaken. Er ontstaan echter inherente conflicten tijdens de gezamenlijke optimalisatie van deze subtaken, en bestaande oplossingen slagen er niet in deze conflicten op te lossen zonder efficiëntie of schaalbaarheid op te offeren. Wij stellen een nieuw equivariant beeldmodelleringsraamwerk voor dat de optimalisatiedoelen van subtaken inherent op één lijn brengt door gebruik te maken van de translatie-invariantie van natuurlijke visuele signalen. Onze methode introduceert (1) kolomsgewijze tokenisatie die de translatiesymmetrie langs de horizontale as versterkt, en (2) venstergebaseerde causale aandacht die consistente contextuele relaties tussen posities afdwingt. Bij evaluatie op klasse-geconditioneerde ImageNet-generatie met een resolutie van 256x256 bereikt onze aanpak prestaties die vergelijkbaar zijn met state-of-the-art AR-modellen, terwijl minder rekenbronnen worden gebruikt. Systematische analyse toont aan dat verbeterde equivariantie inter-taakconflicten vermindert, wat de zero-shot generalisatie aanzienlijk verbetert en ultra-lange beeld-synthese mogelijk maakt. Dit werk introduceert het eerste raamwerk voor taak-uitgelijnde ontbinding in generatieve modellering, en biedt inzichten in efficiënte parametersharing en conflictvrije optimalisatie. De code en modellen zijn publiekelijk beschikbaar op https://github.com/drx-code/EquivariantModeling.

English

Current generative models, such as autoregressive and diffusion approaches, decompose high-dimensional data distribution learning into a series of simpler subtasks. However, inherent conflicts arise during the joint optimization of these subtasks, and existing solutions fail to resolve such conflicts without sacrificing efficiency or scalability. We propose a novel equivariant image modeling framework that inherently aligns optimization targets across subtasks by leveraging the translation invariance of natural visual signals. Our method introduces (1) column-wise tokenization which enhances translational symmetry along the horizontal axis, and (2) windowed causal attention which enforces consistent contextual relationships across positions. Evaluated on class-conditioned ImageNet generation at 256x256 resolution, our approach achieves performance comparable to state-of-the-art AR models while using fewer computational resources. Systematic analysis demonstrates that enhanced equivariance reduces inter-task conflicts, significantly improving zero-shot generalization and enabling ultra-long image synthesis. This work establishes the first framework for task-aligned decomposition in generative modeling, offering insights into efficient parameter sharing and conflict-free optimization. The code and models are publicly available at https://github.com/drx-code/EquivariantModeling.

Equivariante Beeldmodellering

Equivariant Image Modeling

Samenvatting

Support