ChatPaper.aiChatPaper

Síntesis de Imágenes en Resolución Nativa

Native-Resolution Image Synthesis

June 3, 2025
Autores: Zidong Wang, Lei Bai, Xiangyu Yue, Wanli Ouyang, Yiyuan Zhang
cs.AI

Resumen

Presentamos la síntesis de imágenes en resolución nativa, un nuevo paradigma de modelado generativo que permite la síntesis de imágenes en resoluciones y relaciones de aspecto arbitrarias. Este enfoque supera las limitaciones de los métodos convencionales de imágenes cuadradas con resolución fija al manejar de manera nativa tokens visuales de longitud variable, un desafío central para las técnicas tradicionales. Para ello, introducimos el Transformer de difusión en resolución nativa (NiT), una arquitectura diseñada para modelar explícitamente diferentes resoluciones y relaciones de aspecto dentro de su proceso de eliminación de ruido. Libre de las restricciones de formatos fijos, NiT aprende distribuciones visuales intrínsecas a partir de imágenes que abarcan un amplio rango de resoluciones y relaciones de aspecto. Notablemente, un único modelo NiT logra simultáneamente un rendimiento de vanguardia en los benchmarks de ImageNet-256x256 y 512x512. Sorprendentemente, similar a las robustas capacidades zero-shot observadas en modelos avanzados de lenguaje, NiT, entrenado únicamente en ImageNet, demuestra un excelente rendimiento de generalización zero-shot. Genera con éxito imágenes de alta fidelidad en resoluciones previamente no vistas (por ejemplo, 1536 x 1536) y diversas relaciones de aspecto (por ejemplo, 16:9, 3:1, 4:3), como se muestra en la Figura 1. Estos hallazgos indican el potencial significativo del modelado en resolución nativa como un puente entre el modelado generativo visual y las metodologías avanzadas de modelos de lenguaje.
English
We introduce native-resolution image synthesis, a novel generative modeling paradigm that enables the synthesis of images at arbitrary resolutions and aspect ratios. This approach overcomes the limitations of conventional fixed-resolution, square-image methods by natively handling variable-length visual tokens, a core challenge for traditional techniques. To this end, we introduce the Native-resolution diffusion Transformer (NiT), an architecture designed to explicitly model varying resolutions and aspect ratios within its denoising process. Free from the constraints of fixed formats, NiT learns intrinsic visual distributions from images spanning a broad range of resolutions and aspect ratios. Notably, a single NiT model simultaneously achieves the state-of-the-art performance on both ImageNet-256x256 and 512x512 benchmarks. Surprisingly, akin to the robust zero-shot capabilities seen in advanced large language models, NiT, trained solely on ImageNet, demonstrates excellent zero-shot generalization performance. It successfully generates high-fidelity images at previously unseen high resolutions (e.g., 1536 x 1536) and diverse aspect ratios (e.g., 16:9, 3:1, 4:3), as shown in Figure 1. These findings indicate the significant potential of native-resolution modeling as a bridge between visual generative modeling and advanced LLM methodologies.
PDF173June 4, 2025