L'alignement des représentations pour les transformeurs d'images justes n'est pas plus simple que vous ne le pensez

Résumé

L'alignement des représentations (REPA) est apparu comme une méthode simple pour accélérer l'entraînement des Transformers de Diffusion dans l'espace latent. Parallèlement, les transformers de diffusion dans l'espace pixel, tels que les Just image Transformers (JiT), ont attiré une attention croissante car ils suppriment la dépendance à un tokeniseur préentraîné et évitent ainsi le goulot d'étranglement de reconstruction de la diffusion latente. Cet article montre que le REPA peut échouer pour JiT. Le REPA produit un FID pire pour JiT au fur et à mesure de l'entraînement et entraîne un effondrement de la diversité sur des sous-ensembles d'images étroitement regroupés dans l'espace de représentation de l'encodeur sémantique préentraîné sur ImageNet. Nous attribuons cet échec à une asymétrie d'information : le débruitage se produit dans l'espace image de haute dimension, tandis que la cible sémantique est fortement compressée, faisant de la régression directe un objectif de raccourci. Nous proposons PixelREPA, qui transforme la cible d'alignement et contraint l'alignement avec un adaptateur de Transformer Masqué qui combine un adaptateur de transformer peu profond avec un masquage partiel des tokens. PixelREPA améliore à la fois la convergence de l'entraînement et la qualité finale. PixelREPA réduit le FID de 3,66 à 3,17 pour JiT-B/16 et améliore l'Inception Score (IS) de 275,1 à 284,6 sur ImageNet 256×256, tout en permettant une convergence > 2 fois plus rapide. Enfin, PixelREPA-H/16 atteint un FID=1,81 et un IS=317,2. Notre code est disponible à l'adresse https://github.com/kaist-cvml/PixelREPA.

English

Representation Alignment (REPA) has emerged as a simple way to accelerate Diffusion Transformers training in latent space. At the same time, pixel-space diffusion transformers such as Just image Transformers (JiT) have attracted growing attention because they remove a dependency on a pretrained tokenizer, and then avoid the reconstruction bottleneck of latent diffusion. This paper shows that the REPA can fail for JiT. REPA yields worse FID for JiT as training proceeds and collapses diversity on image subsets that are tightly clustered in the representation space of pretrained semantic encoder on ImageNet. We trace the failure to an information asymmetry: denoising occurs in the high dimensional image space, while the semantic target is strongly compressed, making direct regression a shortcut objective. We propose PixelREPA, which transforms the alignment target and constrains alignment with a Masked Transformer Adapter that combines a shallow transformer adapter with partial token masking. PixelREPA improves both training convergence and final quality. PixelREPA reduces FID from 3.66 to 3.17 for JiT-B/16 and improves Inception Score (IS) from 275.1 to 284.6 on ImageNet 256 times 256, while achieving > 2times faster convergence. Finally, PixelREPA-H/16 achieves FID=1.81 and IS=317.2. Our code is available at https://github.com/kaist-cvml/PixelREPA.

L'alignement des représentations pour les transformeurs d'images justes n'est pas plus simple que vous ne le pensez

Representation Alignment for Just Image Transformers is not Easier than You Think

Résumé

Support