Выравнивание представлений для справедливых трансформеров изображений не так просто, как кажется

Аннотация

Выравнивание представлений (REPA) стало простым способом ускорения обучения диффузионных трансформеров в латентном пространстве. В то же время диффузионные трансформеры в пиксельном пространстве, такие как Just Image Transformers (JiT), привлекают растущее внимание, поскольку они устраняют зависимость от предварительно обученного токенизатора и тем самым избегают реконструкционного узкого места латентной диффузии. В данной статье показано, что REPA может оказаться неэффективным для JiT. REPA приводит к ухудшению FID для JiT по мере обучения и вызывает коллапс разнообразия на подмножествах изображений, тесно сгруппированных в пространстве представлений предварительно обученного семантического кодекса на ImageNet. Мы связываем эту неудачу с информационной асимметрией: денизинг происходит в высокоразмерном пространстве изображений, в то время как семантическая цель сильно сжата, что делает прямую регрессию упрощенной задачей. Мы предлагаем PixelREPA, который преобразует цель выравнивания и ограничивает выравнивание с помощью Masked Transformer Adapter, сочетающего неглубокий трансформер-адаптер с частичным маскированием токенов. PixelREPA улучшает как сходимость обучения, так и итоговое качество. PixelREPA снижает FID с 3.66 до 3.17 для JiT-B/16 и улучшает Inception Score (IS) с 275.1 до 284.6 на ImageNet 256×256, обеспечивая при этом более чем двукратное ускорение сходимости. Наконец, PixelREPA-H/16 достигает FID=1.81 и IS=317.2. Наш код доступен по адресу https://github.com/kaist-cvml/PixelREPA.

English

Representation Alignment (REPA) has emerged as a simple way to accelerate Diffusion Transformers training in latent space. At the same time, pixel-space diffusion transformers such as Just image Transformers (JiT) have attracted growing attention because they remove a dependency on a pretrained tokenizer, and then avoid the reconstruction bottleneck of latent diffusion. This paper shows that the REPA can fail for JiT. REPA yields worse FID for JiT as training proceeds and collapses diversity on image subsets that are tightly clustered in the representation space of pretrained semantic encoder on ImageNet. We trace the failure to an information asymmetry: denoising occurs in the high dimensional image space, while the semantic target is strongly compressed, making direct regression a shortcut objective. We propose PixelREPA, which transforms the alignment target and constrains alignment with a Masked Transformer Adapter that combines a shallow transformer adapter with partial token masking. PixelREPA improves both training convergence and final quality. PixelREPA reduces FID from 3.66 to 3.17 for JiT-B/16 and improves Inception Score (IS) from 275.1 to 284.6 on ImageNet 256 times 256, while achieving > 2times faster convergence. Finally, PixelREPA-H/16 achieves FID=1.81 and IS=317.2. Our code is available at https://github.com/kaist-cvml/PixelREPA.

Выравнивание представлений для справедливых трансформеров изображений не так просто, как кажется

Representation Alignment for Just Image Transformers is not Easier than You Think

Аннотация

Support