ChatPaper.aiChatPaper

Qu'est-ce qui importe pour l'alignement des représentations : l'information globale ou la structure spatiale ?

What matters for Representation Alignment: Global Information or Spatial Structure?

December 11, 2025
papers.authors: Jaskirat Singh, Xingjian Leng, Zongze Wu, Liang Zheng, Richard Zhang, Eli Shechtman, Saining Xie
cs.AI

papers.abstract

L'alignement des représentations (REPA) guide l'apprentissage génératif en distillant les représentations d'un encodeur visuel performant et pré-entraîné vers les caractéristiques intermédiaires d'un modèle de diffusion. Nous étudions une question fondamentale : quel aspect de la représentation cible importe pour la génération, son information sémantique globale (par exemple, mesurée par la précision sur ImageNet-1K) ou sa structure spatiale (c'est-à-dire la similarité cosinus par paires entre les patch tokens) ? La sagesse conventionnelle suggère qu'une meilleure performance sémantique globale conduit à une meilleure génération en tant que représentation cible. Pour étudier cela, nous effectuons d'abord une analyse empirique à large échelle sur 27 encodeurs visuels différents et différentes échelles de modèles. Les résultats sont surprenants ; la structure spatiale, plutôt que la performance globale, détermine la performance générative d'une représentation cible. Pour approfondir cette étude, nous introduisons deux modifications simples qui accentuent spécifiquement le transfert d'information spatiale. Nous remplaçons la couche de projection MLP standard dans REPA par une simple couche de convolution et introduisons une couche de normalisation spatiale pour la représentation externe. De manière surprenante, notre méthode simple (implémentée en <4 lignes de code), nommée iREPA, améliore constamment la vitesse de convergence de REPA, across un ensemble varié d'encodeurs visuels, de tailles de modèles et de variantes d'entraînement (telles que REPA, REPA-E, Meanflow, JiT, etc.). Notre travail incite à reconsidérer le mécanisme fondamental de l'alignement représentationnel et la manière dont il peut être exploité pour améliorer l'entraînement des modèles génératifs. Le code et la page du projet sont disponibles à l'adresse https://end2end-diffusion.github.io/irepa
English
Representation alignment (REPA) guides generative training by distilling representations from a strong, pretrained vision encoder to intermediate diffusion features. We investigate a fundamental question: what aspect of the target representation matters for generation, its global semantic information (e.g., measured by ImageNet-1K accuracy) or its spatial structure (i.e. pairwise cosine similarity between patch tokens)? Prevalent wisdom holds that stronger global semantic performance leads to better generation as a target representation. To study this, we first perform a large-scale empirical analysis across 27 different vision encoders and different model scales. The results are surprising; spatial structure, rather than global performance, drives the generation performance of a target representation. To further study this, we introduce two straightforward modifications, which specifically accentuate the transfer of spatial information. We replace the standard MLP projection layer in REPA with a simple convolution layer and introduce a spatial normalization layer for the external representation. Surprisingly, our simple method (implemented in <4 lines of code), termed iREPA, consistently improves convergence speed of REPA, across a diverse set of vision encoders, model sizes, and training variants (such as REPA, REPA-E, Meanflow, JiT etc). %, etc. Our work motivates revisiting the fundamental working mechanism of representational alignment and how it can be leveraged for improved training of generative models. The code and project page are available at https://end2end-diffusion.github.io/irepa
PDF52December 17, 2025