ChatPaper.aiChatPaper

Síntese de Imagens em Resolução Nativa

Native-Resolution Image Synthesis

June 3, 2025
Autores: Zidong Wang, Lei Bai, Xiangyu Yue, Wanli Ouyang, Yiyuan Zhang
cs.AI

Resumo

Apresentamos a síntese de imagens em resolução nativa, um novo paradigma de modelagem generativa que permite a síntese de imagens em resoluções e proporções de aspecto arbitrárias. Essa abordagem supera as limitações dos métodos convencionais de imagens quadradas com resolução fixa, ao lidar nativamente com tokens visuais de comprimento variável, um desafio central para as técnicas tradicionais. Para isso, introduzimos o Transformer de Difusão em Resolução Nativa (NiT), uma arquitetura projetada para modelar explicitamente diferentes resoluções e proporções de aspecto em seu processo de remoção de ruído. Livre das restrições de formatos fixos, o NiT aprende distribuições visuais intrínsecas a partir de imagens que abrangem uma ampla gama de resoluções e proporções de aspecto. Notavelmente, um único modelo NiT alcança simultaneamente o estado da arte nos benchmarks ImageNet-256x256 e 512x512. Surpreendentemente, semelhante às robustas capacidades zero-shot observadas em modelos avançados de linguagem de grande escala (LLMs), o NiT, treinado exclusivamente no ImageNet, demonstra excelente desempenho de generalização zero-shot. Ele gera com sucesso imagens de alta fidelidade em resoluções altas previamente não vistas (por exemplo, 1536 x 1536) e diversas proporções de aspecto (por exemplo, 16:9, 3:1, 4:3), conforme mostrado na Figura 1. Esses achados indicam o potencial significativo da modelagem em resolução nativa como uma ponte entre a modelagem generativa visual e as metodologias avançadas de LLMs.
English
We introduce native-resolution image synthesis, a novel generative modeling paradigm that enables the synthesis of images at arbitrary resolutions and aspect ratios. This approach overcomes the limitations of conventional fixed-resolution, square-image methods by natively handling variable-length visual tokens, a core challenge for traditional techniques. To this end, we introduce the Native-resolution diffusion Transformer (NiT), an architecture designed to explicitly model varying resolutions and aspect ratios within its denoising process. Free from the constraints of fixed formats, NiT learns intrinsic visual distributions from images spanning a broad range of resolutions and aspect ratios. Notably, a single NiT model simultaneously achieves the state-of-the-art performance on both ImageNet-256x256 and 512x512 benchmarks. Surprisingly, akin to the robust zero-shot capabilities seen in advanced large language models, NiT, trained solely on ImageNet, demonstrates excellent zero-shot generalization performance. It successfully generates high-fidelity images at previously unseen high resolutions (e.g., 1536 x 1536) and diverse aspect ratios (e.g., 16:9, 3:1, 4:3), as shown in Figure 1. These findings indicate the significant potential of native-resolution modeling as a bridge between visual generative modeling and advanced LLM methodologies.
PDF183December 3, 2025