Sintesi di immagini a risoluzione nativa

Abstract

Introduciamo la sintesi di immagini a risoluzione nativa, un nuovo paradigma di modellazione generativa che consente la sintesi di immagini a risoluzioni e rapporti d'aspetto arbitrari. Questo approccio supera i limiti dei metodi convenzionali a risoluzione fissa e immagini quadrate, gestendo nativamente token visivi di lunghezza variabile, una sfida fondamentale per le tecniche tradizionali. A tal fine, presentiamo il Native-resolution diffusion Transformer (NiT), un'architettura progettata per modellare esplicitamente risoluzioni e rapporti d'aspetto variabili all'interno del suo processo di denoising. Libero dai vincoli dei formati fissi, NiT apprende distribuzioni visive intrinseche da immagini che coprono un'ampia gamma di risoluzioni e rapporti d'aspetto. È degno di nota che un singolo modello NiT raggiunga simultaneamente prestazioni all'avanguardia sia sui benchmark ImageNet-256x256 che 512x512. Sorprendentemente, analogamente alle robuste capacità zero-shot osservate nei modelli linguistici avanzati, NiT, addestrato esclusivamente su ImageNet, dimostra un'eccellente performance di generalizzazione zero-shot. Genera con successo immagini ad alta fedeltà a risoluzioni elevate mai viste prima (ad esempio, 1536 x 1536) e con rapporti d'aspetto diversificati (ad esempio, 16:9, 3:1, 4:3), come mostrato nella Figura 1. Questi risultati indicano il significativo potenziale della modellazione a risoluzione nativa come ponte tra la modellazione generativa visiva e le metodologie avanzate dei modelli linguistici di grandi dimensioni (LLM).

English

We introduce native-resolution image synthesis, a novel generative modeling paradigm that enables the synthesis of images at arbitrary resolutions and aspect ratios. This approach overcomes the limitations of conventional fixed-resolution, square-image methods by natively handling variable-length visual tokens, a core challenge for traditional techniques. To this end, we introduce the Native-resolution diffusion Transformer (NiT), an architecture designed to explicitly model varying resolutions and aspect ratios within its denoising process. Free from the constraints of fixed formats, NiT learns intrinsic visual distributions from images spanning a broad range of resolutions and aspect ratios. Notably, a single NiT model simultaneously achieves the state-of-the-art performance on both ImageNet-256x256 and 512x512 benchmarks. Surprisingly, akin to the robust zero-shot capabilities seen in advanced large language models, NiT, trained solely on ImageNet, demonstrates excellent zero-shot generalization performance. It successfully generates high-fidelity images at previously unseen high resolutions (e.g., 1536 x 1536) and diverse aspect ratios (e.g., 16:9, 3:1, 4:3), as shown in Figure 1. These findings indicate the significant potential of native-resolution modeling as a bridge between visual generative modeling and advanced LLM methodologies.

Sintesi di immagini a risoluzione nativa

Native-Resolution Image Synthesis

Abstract

Support