L'allineamento della rappresentazione per i trasformatori di immagini giusti non è più semplice di quanto si pensi

Abstract

L'allineamento delle rappresentazioni (REPA) è emerso come un metodo semplice per accelerare l'addestramento dei Diffusion Transformer nello spazio latente. Allo stesso tempo, i diffusion transformer nello spazio dei pixel, come i Just Image Transformer (JiT), hanno attirato crescente attenzione poiché rimuovono la dipendenza da un tokenizer preaddestrato, evitando così il collo di bottiglia ricostruttivo della diffusione latente. Questo articolo dimostra che il REPA può fallire con i JiT. Il REPA produce un FID peggiore per JiT con il procedere dell'addestramento e collassa la diversità su sottoinsiemi di immagini fortemente raggruppati nello spazio delle rappresentazioni del codificatore semantico preaddestrato su ImageNet. Riconduciamo il fallimento a un'asimmetria informativa: la rimozione del rumore avviene nell'alto spazio dimensionale dell'immagine, mentre il target semantico è fortemente compresso, rendendo la regressione diretta un obiettivo di scorciatoia. Proponiamo PixelREPA, che trasforma il target di allineamento e vincola l'allineamento con un Adapter a Trasformatore Mascherato che combina un adapter a trasformatore superficiale con un mascheramento parziale dei token. PixelREPA migliora sia la convergenza dell'addestramento che la qualità finale. PixelREPA riduce l'FID da 3.66 a 3.17 per JiT-B/16 e migliora l'Inception Score (IS) da 275.1 a 284.6 su ImageNet 256x256, raggiungendo al contempo una convergenza >2 volte più veloce. Infine, PixelREPA-H/16 raggiunge FID=1.81 e IS=317.2. Il nostro codice è disponibile all'indirizzo https://github.com/kaist-cvml/PixelREPA.

English

Representation Alignment (REPA) has emerged as a simple way to accelerate Diffusion Transformers training in latent space. At the same time, pixel-space diffusion transformers such as Just image Transformers (JiT) have attracted growing attention because they remove a dependency on a pretrained tokenizer, and then avoid the reconstruction bottleneck of latent diffusion. This paper shows that the REPA can fail for JiT. REPA yields worse FID for JiT as training proceeds and collapses diversity on image subsets that are tightly clustered in the representation space of pretrained semantic encoder on ImageNet. We trace the failure to an information asymmetry: denoising occurs in the high dimensional image space, while the semantic target is strongly compressed, making direct regression a shortcut objective. We propose PixelREPA, which transforms the alignment target and constrains alignment with a Masked Transformer Adapter that combines a shallow transformer adapter with partial token masking. PixelREPA improves both training convergence and final quality. PixelREPA reduces FID from 3.66 to 3.17 for JiT-B/16 and improves Inception Score (IS) from 275.1 to 284.6 on ImageNet 256 times 256, while achieving > 2times faster convergence. Finally, PixelREPA-H/16 achieves FID=1.81 and IS=317.2. Our code is available at https://github.com/kaist-cvml/PixelREPA.

L'allineamento della rappresentazione per i trasformatori di immagini giusti non è più semplice di quanto si pensi

Representation Alignment for Just Image Transformers is not Easier than You Think

Abstract

Support