ChatPaper.aiChatPaper

Native-Resolution Beeldsynthese

Native-Resolution Image Synthesis

June 3, 2025
Auteurs: Zidong Wang, Lei Bai, Xiangyu Yue, Wanli Ouyang, Yiyuan Zhang
cs.AI

Samenvatting

We introduceren native-resolutie beeldgeneratie, een nieuw generatief modelleerparadigma dat de synthese van beelden mogelijk maakt bij willekeurige resoluties en beeldverhoudingen. Deze aanpak overkomt de beperkingen van conventionele methoden met vaste resolutie en vierkante beelden door het native verwerken van visuele tokens met variabele lengte, een kernuitdaging voor traditionele technieken. Hiertoe introduceren we de Native-resolution diffusion Transformer (NiT), een architectuur die expliciet is ontworpen om variërende resoluties en beeldverhoudingen te modelleren binnen zijn denoiseringsproces. Vrij van de beperkingen van vaste formaten, leert NiT intrinsieke visuele distributies van beelden die een breed scala aan resoluties en beeldverhoudingen omvatten. Opmerkelijk is dat een enkel NiT-model tegelijkertijd de state-of-the-art prestaties behaalt op zowel de ImageNet-256x256 als de 512x512 benchmarks. Verrassend genoeg, vergelijkbaar met de robuuste zero-shot mogelijkheden die worden gezien in geavanceerde grote taalmodellen, toont NiT, uitsluitend getraind op ImageNet, uitstekende zero-shot generalisatieprestaties. Het genereert met succes hoogwaardige beelden bij voorheen ongeziene hoge resoluties (bijvoorbeeld 1536 x 1536) en diverse beeldverhoudingen (bijvoorbeeld 16:9, 3:1, 4:3), zoals weergegeven in Figuur 1. Deze bevindingen wijzen op het significante potentieel van native-resolutie modellering als een brug tussen visuele generatieve modellering en geavanceerde LLM-methodologieën.
English
We introduce native-resolution image synthesis, a novel generative modeling paradigm that enables the synthesis of images at arbitrary resolutions and aspect ratios. This approach overcomes the limitations of conventional fixed-resolution, square-image methods by natively handling variable-length visual tokens, a core challenge for traditional techniques. To this end, we introduce the Native-resolution diffusion Transformer (NiT), an architecture designed to explicitly model varying resolutions and aspect ratios within its denoising process. Free from the constraints of fixed formats, NiT learns intrinsic visual distributions from images spanning a broad range of resolutions and aspect ratios. Notably, a single NiT model simultaneously achieves the state-of-the-art performance on both ImageNet-256x256 and 512x512 benchmarks. Surprisingly, akin to the robust zero-shot capabilities seen in advanced large language models, NiT, trained solely on ImageNet, demonstrates excellent zero-shot generalization performance. It successfully generates high-fidelity images at previously unseen high resolutions (e.g., 1536 x 1536) and diverse aspect ratios (e.g., 16:9, 3:1, 4:3), as shown in Figure 1. These findings indicate the significant potential of native-resolution modeling as a bridge between visual generative modeling and advanced LLM methodologies.
PDF183June 4, 2025