Repräsentationsausrichtung für gerechte Bildtransformatoren ist nicht einfacher, als Sie denken

Zusammenfassung

Repräsentationsalignment (REPA) hat sich als einfache Methode erwiesen, um das Training von Diffusion Transformern im latenten Raum zu beschleunigen. Gleichzeitig haben Pixelraum-Diffusionstransformer wie Just Image Transformers (JiT) zunehmend Aufmerksamkeit erregt, da sie die Abhängigkeit von einem vortrainierten Tokenizer entfernen und so den Rekonstruktionsengpass der latenten Diffusion umgehen. Diese Arbeit zeigt, dass REPA für JiT versagen kann. REPA führt bei JiT zu einer schlechteren FID im Trainingsverlauf und lässt die Diversität auf Bild-Teilmengen kollabieren, die im Repräsentationsraum eines auf ImageNet vortrainierten semantischen Encoders eng gruppiert sind. Wir führen das Versagen auf eine Informationsasymmetrie zurück: Die Entrauschung erfolgt im hochdimensionalen Bildraum, während das semantische Ziel stark komprimiert ist, was direkte Regression zu einem vereinfachten Ziel macht. Wir schlagen PixelREPA vor, welches das Alignierungsziel transformiert und die Alignierung mit einem Masked Transformer Adapter beschränkt, der einen flachen Transformer-Adapter mit partieller Token-Maskierung kombiniert. PixelREPA verbessert sowohl die Trainingskonvergenz als auch die finale Qualität. PixelREPA reduziert die FID von 3,66 auf 3,17 für JiT-B/16 und verbessert den Inception Score (IS) von 275,1 auf 284,6 auf ImageNet 256x256, bei gleichzeitig mehr als 2-fach schnellerer Konvergenz. Schließlich erreicht PixelREPA-H/16 FID=1,81 und IS=317,2. Unser Code ist verfügbar unter https://github.com/kaist-cvml/PixelREPA.

English

Representation Alignment (REPA) has emerged as a simple way to accelerate Diffusion Transformers training in latent space. At the same time, pixel-space diffusion transformers such as Just image Transformers (JiT) have attracted growing attention because they remove a dependency on a pretrained tokenizer, and then avoid the reconstruction bottleneck of latent diffusion. This paper shows that the REPA can fail for JiT. REPA yields worse FID for JiT as training proceeds and collapses diversity on image subsets that are tightly clustered in the representation space of pretrained semantic encoder on ImageNet. We trace the failure to an information asymmetry: denoising occurs in the high dimensional image space, while the semantic target is strongly compressed, making direct regression a shortcut objective. We propose PixelREPA, which transforms the alignment target and constrains alignment with a Masked Transformer Adapter that combines a shallow transformer adapter with partial token masking. PixelREPA improves both training convergence and final quality. PixelREPA reduces FID from 3.66 to 3.17 for JiT-B/16 and improves Inception Score (IS) from 275.1 to 284.6 on ImageNet 256 times 256, while achieving > 2times faster convergence. Finally, PixelREPA-H/16 achieves FID=1.81 and IS=317.2. Our code is available at https://github.com/kaist-cvml/PixelREPA.

Repräsentationsausrichtung für gerechte Bildtransformatoren ist nicht einfacher, als Sie denken

Representation Alignment for Just Image Transformers is not Easier than You Think

Zusammenfassung

Support