Native-Resolution-Bildsynthese
Native-Resolution Image Synthesis
June 3, 2025
papers.authors: Zidong Wang, Lei Bai, Xiangyu Yue, Wanli Ouyang, Yiyuan Zhang
cs.AI
papers.abstract
Wir stellen die native Auflösungsbildsynthese vor, ein neuartiges Paradigma der generativen Modellierung, das die Synthese von Bildern in beliebigen Auflösungen und Seitenverhältnissen ermöglicht. Dieser Ansatz überwindet die Einschränkungen herkömmlicher Methoden mit festen Auflösungen und quadratischen Bildern, indem er nativ mit variablen visuellen Tokens umgeht, einer zentralen Herausforderung für traditionelle Techniken. Zu diesem Zweck führen wir den Native-resolution Diffusion Transformer (NiT) ein, eine Architektur, die explizit darauf ausgelegt ist, unterschiedliche Auflösungen und Seitenverhältnisse innerhalb ihres Denoising-Prozesses zu modellieren. Frei von den Beschränkungen fester Formate lernt NiT intrinsische visuelle Verteilungen aus Bildern, die eine breite Palette von Auflösungen und Seitenverhältnissen abdecken. Bemerkenswerterweise erreicht ein einzelnes NiT-Modell gleichzeitig die state-of-the-art Leistung auf den Benchmarks ImageNet-256x256 und 512x512. Überraschenderweise zeigt NiT, ähnlich wie die robusten Zero-Shot-Fähigkeiten fortschrittlicher großer Sprachmodelle, eine hervorragende Zero-Shot-Generalisierungsleistung, obwohl es ausschließlich auf ImageNet trainiert wurde. Es generiert erfolgreich hochauflösende Bilder in zuvor ungesehenen hohen Auflösungen (z. B. 1536 x 1536) und vielfältigen Seitenverhältnissen (z. B. 16:9, 3:1, 4:3), wie in Abbildung 1 dargestellt. Diese Ergebnisse deuten auf das erhebliche Potenzial der nativen Auflösungsmodellierung als Brücke zwischen visueller generativer Modellierung und fortgeschrittenen LLM-Methodologien hin.
English
We introduce native-resolution image synthesis, a novel generative modeling
paradigm that enables the synthesis of images at arbitrary resolutions and
aspect ratios. This approach overcomes the limitations of conventional
fixed-resolution, square-image methods by natively handling variable-length
visual tokens, a core challenge for traditional techniques. To this end, we
introduce the Native-resolution diffusion Transformer (NiT), an architecture
designed to explicitly model varying resolutions and aspect ratios within its
denoising process. Free from the constraints of fixed formats, NiT learns
intrinsic visual distributions from images spanning a broad range of
resolutions and aspect ratios. Notably, a single NiT model simultaneously
achieves the state-of-the-art performance on both ImageNet-256x256 and 512x512
benchmarks. Surprisingly, akin to the robust zero-shot capabilities seen in
advanced large language models, NiT, trained solely on ImageNet, demonstrates
excellent zero-shot generalization performance. It successfully generates
high-fidelity images at previously unseen high resolutions (e.g., 1536 x 1536)
and diverse aspect ratios (e.g., 16:9, 3:1, 4:3), as shown in Figure 1. These
findings indicate the significant potential of native-resolution modeling as a
bridge between visual generative modeling and advanced LLM methodologies.