ChatPaper.aiChatPaper

FiT: Transformador de Visão Flexível para Modelo de Difusão

FiT: Flexible Vision Transformer for Diffusion Model

February 19, 2024
Autores: Zeyu Lu, Zidong Wang, Di Huang, Chengyue Wu, Xihui Liu, Wanli Ouyang, Lei Bai
cs.AI

Resumo

A natureza é infinitamente livre de resolução. No contexto dessa realidade, os modelos de difusão existentes, como os Transformers de Difusão, frequentemente enfrentam desafios ao processar resoluções de imagem fora de seu domínio de treinamento. Para superar essa limitação, apresentamos o Flexible Vision Transformer (FiT), uma arquitetura de transformer projetada especificamente para gerar imagens com resoluções e proporções de aspecto ilimitadas. Diferentemente dos métodos tradicionais que percebem as imagens como grades de resolução estática, o FiT conceitua as imagens como sequências de tokens de tamanho dinâmico. Essa perspectiva permite uma estratégia de treinamento flexível que se adapta facilmente a diversas proporções de aspecto durante as fases de treinamento e inferência, promovendo assim a generalização de resolução e eliminando vieses induzidos pelo recorte de imagens. Aprimorado por uma estrutura de rede meticulosamente ajustada e pela integração de técnicas de extrapolação sem treinamento, o FiT exibe uma flexibilidade notável na geração de extrapolação de resolução. Experimentos abrangentes demonstram o desempenho excepcional do FiT em uma ampla gama de resoluções, destacando sua eficácia tanto dentro quanto além de sua distribuição de resolução de treinamento. Repositório disponível em https://github.com/whlzy/FiT.
English
Nature is infinitely resolution-free. In the context of this reality, existing diffusion models, such as Diffusion Transformers, often face challenges when processing image resolutions outside of their trained domain. To overcome this limitation, we present the Flexible Vision Transformer (FiT), a transformer architecture specifically designed for generating images with unrestricted resolutions and aspect ratios. Unlike traditional methods that perceive images as static-resolution grids, FiT conceptualizes images as sequences of dynamically-sized tokens. This perspective enables a flexible training strategy that effortlessly adapts to diverse aspect ratios during both training and inference phases, thus promoting resolution generalization and eliminating biases induced by image cropping. Enhanced by a meticulously adjusted network structure and the integration of training-free extrapolation techniques, FiT exhibits remarkable flexibility in resolution extrapolation generation. Comprehensive experiments demonstrate the exceptional performance of FiT across a broad range of resolutions, showcasing its effectiveness both within and beyond its training resolution distribution. Repository available at https://github.com/whlzy/FiT.
PDF485December 15, 2024