Sintesi di immagini a risoluzione nativa
Native-Resolution Image Synthesis
June 3, 2025
Autori: Zidong Wang, Lei Bai, Xiangyu Yue, Wanli Ouyang, Yiyuan Zhang
cs.AI
Abstract
Introduciamo la sintesi di immagini a risoluzione nativa, un nuovo paradigma di modellazione generativa che consente la sintesi di immagini a risoluzioni e rapporti d'aspetto arbitrari. Questo approccio supera i limiti dei metodi convenzionali a risoluzione fissa e immagini quadrate, gestendo nativamente token visivi di lunghezza variabile, una sfida fondamentale per le tecniche tradizionali. A tal fine, presentiamo il Native-resolution diffusion Transformer (NiT), un'architettura progettata per modellare esplicitamente risoluzioni e rapporti d'aspetto variabili all'interno del suo processo di denoising. Libero dai vincoli dei formati fissi, NiT apprende distribuzioni visive intrinseche da immagini che coprono un'ampia gamma di risoluzioni e rapporti d'aspetto. È degno di nota che un singolo modello NiT raggiunga simultaneamente prestazioni all'avanguardia sia sui benchmark ImageNet-256x256 che 512x512. Sorprendentemente, analogamente alle robuste capacità zero-shot osservate nei modelli linguistici avanzati, NiT, addestrato esclusivamente su ImageNet, dimostra un'eccellente performance di generalizzazione zero-shot. Genera con successo immagini ad alta fedeltà a risoluzioni elevate mai viste prima (ad esempio, 1536 x 1536) e con rapporti d'aspetto diversificati (ad esempio, 16:9, 3:1, 4:3), come mostrato nella Figura 1. Questi risultati indicano il significativo potenziale della modellazione a risoluzione nativa come ponte tra la modellazione generativa visiva e le metodologie avanzate dei modelli linguistici di grandi dimensioni (LLM).
English
We introduce native-resolution image synthesis, a novel generative modeling
paradigm that enables the synthesis of images at arbitrary resolutions and
aspect ratios. This approach overcomes the limitations of conventional
fixed-resolution, square-image methods by natively handling variable-length
visual tokens, a core challenge for traditional techniques. To this end, we
introduce the Native-resolution diffusion Transformer (NiT), an architecture
designed to explicitly model varying resolutions and aspect ratios within its
denoising process. Free from the constraints of fixed formats, NiT learns
intrinsic visual distributions from images spanning a broad range of
resolutions and aspect ratios. Notably, a single NiT model simultaneously
achieves the state-of-the-art performance on both ImageNet-256x256 and 512x512
benchmarks. Surprisingly, akin to the robust zero-shot capabilities seen in
advanced large language models, NiT, trained solely on ImageNet, demonstrates
excellent zero-shot generalization performance. It successfully generates
high-fidelity images at previously unseen high resolutions (e.g., 1536 x 1536)
and diverse aspect ratios (e.g., 16:9, 3:1, 4:3), as shown in Figure 1. These
findings indicate the significant potential of native-resolution modeling as a
bridge between visual generative modeling and advanced LLM methodologies.