Síntese de Imagens em Resolução Nativa
Native-Resolution Image Synthesis
June 3, 2025
Autores: Zidong Wang, Lei Bai, Xiangyu Yue, Wanli Ouyang, Yiyuan Zhang
cs.AI
Resumo
Apresentamos a síntese de imagens em resolução nativa, um novo paradigma de modelagem generativa que permite a síntese de imagens em resoluções e proporções de aspecto arbitrárias. Essa abordagem supera as limitações dos métodos convencionais de imagens quadradas com resolução fixa, ao lidar nativamente com tokens visuais de comprimento variável, um desafio central para as técnicas tradicionais. Para isso, introduzimos o Transformer de Difusão em Resolução Nativa (NiT), uma arquitetura projetada para modelar explicitamente diferentes resoluções e proporções de aspecto em seu processo de remoção de ruído. Livre das restrições de formatos fixos, o NiT aprende distribuições visuais intrínsecas a partir de imagens que abrangem uma ampla gama de resoluções e proporções de aspecto. Notavelmente, um único modelo NiT alcança simultaneamente o estado da arte nos benchmarks ImageNet-256x256 e 512x512. Surpreendentemente, semelhante às robustas capacidades zero-shot observadas em modelos avançados de linguagem de grande escala (LLMs), o NiT, treinado exclusivamente no ImageNet, demonstra excelente desempenho de generalização zero-shot. Ele gera com sucesso imagens de alta fidelidade em resoluções altas previamente não vistas (por exemplo, 1536 x 1536) e diversas proporções de aspecto (por exemplo, 16:9, 3:1, 4:3), conforme mostrado na Figura 1. Esses achados indicam o potencial significativo da modelagem em resolução nativa como uma ponte entre a modelagem generativa visual e as metodologias avançadas de LLMs.
English
We introduce native-resolution image synthesis, a novel generative modeling
paradigm that enables the synthesis of images at arbitrary resolutions and
aspect ratios. This approach overcomes the limitations of conventional
fixed-resolution, square-image methods by natively handling variable-length
visual tokens, a core challenge for traditional techniques. To this end, we
introduce the Native-resolution diffusion Transformer (NiT), an architecture
designed to explicitly model varying resolutions and aspect ratios within its
denoising process. Free from the constraints of fixed formats, NiT learns
intrinsic visual distributions from images spanning a broad range of
resolutions and aspect ratios. Notably, a single NiT model simultaneously
achieves the state-of-the-art performance on both ImageNet-256x256 and 512x512
benchmarks. Surprisingly, akin to the robust zero-shot capabilities seen in
advanced large language models, NiT, trained solely on ImageNet, demonstrates
excellent zero-shot generalization performance. It successfully generates
high-fidelity images at previously unseen high resolutions (e.g., 1536 x 1536)
and diverse aspect ratios (e.g., 16:9, 3:1, 4:3), as shown in Figure 1. These
findings indicate the significant potential of native-resolution modeling as a
bridge between visual generative modeling and advanced LLM methodologies.