La Alineación de Representaciones para Transformadores de Imágenes Justos no es Tan Fácil Como Crees

Resumen

La Alineación de Representaciones (REPA) ha surgido como una forma sencilla de acelerar el entrenamiento de Transformadores de Difusión en el espacio latente. Al mismo tiempo, los transformadores de difusión en el espacio de píxeles, como los Transformadores de Solo Imagen (JiT), han atraído una atención creciente porque eliminan la dependencia de un tokenizador preentrenado y, por lo tanto, evitan el cuello de botella de reconstrucción de la difusión latente. Este artículo demuestra que el REPA puede fallar para JiT. REPA produce un FID peor para JiT a medida que avanza el entrenamiento y colapsa la diversidad en subconjuntos de imágenes que están estrechamente agrupados en el espacio de representación del codificador semántico preentrenado en ImageNet. Rastreamos el fallo hasta una asimetría de información: la eliminación de ruido ocurre en el espacio de imagen de alta dimensión, mientras que el objetivo semántico está fuertemente comprimido, lo que convierte a la regresión directa en un objetivo de acceso directo. Proponemos PixelREPA, que transforma el objetivo de alineación y restringe la alineación con un Adaptador de Transformador Enmascarado que combina un adaptador de transformador superficial con un enmascaramiento parcial de tokens. PixelREPA mejora tanto la convergencia del entrenamiento como la calidad final. PixelREPA reduce el FID de 3.66 a 3.17 para JiT-B/16 y mejora el Inception Score (IS) de 275.1 a 284.6 en ImageNet 256x256, al mismo tiempo que logra una convergencia >2 veces más rápida. Finalmente, PixelREPA-H/16 alcanza un FID=1.81 y un IS=317.2. Nuestro código está disponible en https://github.com/kaist-cvml/PixelREPA.

English

Representation Alignment (REPA) has emerged as a simple way to accelerate Diffusion Transformers training in latent space. At the same time, pixel-space diffusion transformers such as Just image Transformers (JiT) have attracted growing attention because they remove a dependency on a pretrained tokenizer, and then avoid the reconstruction bottleneck of latent diffusion. This paper shows that the REPA can fail for JiT. REPA yields worse FID for JiT as training proceeds and collapses diversity on image subsets that are tightly clustered in the representation space of pretrained semantic encoder on ImageNet. We trace the failure to an information asymmetry: denoising occurs in the high dimensional image space, while the semantic target is strongly compressed, making direct regression a shortcut objective. We propose PixelREPA, which transforms the alignment target and constrains alignment with a Masked Transformer Adapter that combines a shallow transformer adapter with partial token masking. PixelREPA improves both training convergence and final quality. PixelREPA reduces FID from 3.66 to 3.17 for JiT-B/16 and improves Inception Score (IS) from 275.1 to 284.6 on ImageNet 256 times 256, while achieving > 2times faster convergence. Finally, PixelREPA-H/16 achieves FID=1.81 and IS=317.2. Our code is available at https://github.com/kaist-cvml/PixelREPA.

La Alineación de Representaciones para Transformadores de Imágenes Justos no es Tan Fácil Como Crees

Representation Alignment for Just Image Transformers is not Easier than You Think

Resumen

Support