ChatPaper.aiChatPaper

Synthèse d'images en résolution native

Native-Resolution Image Synthesis

June 3, 2025
Auteurs: Zidong Wang, Lei Bai, Xiangyu Yue, Wanli Ouyang, Yiyuan Zhang
cs.AI

Résumé

Nous introduisons la synthèse d'images à résolution native, un nouveau paradigme de modélisation générative permettant la synthèse d'images à des résolutions et ratios d'aspect arbitraires. Cette approche surmonte les limitations des méthodes conventionnelles basées sur des images carrées à résolution fixe en gérant nativement des tokens visuels de longueur variable, un défi majeur pour les techniques traditionnelles. À cette fin, nous présentons le Transformer de diffusion à résolution native (NiT), une architecture conçue pour modéliser explicitement les variations de résolution et de ratio d'aspect dans son processus de débruitage. Libéré des contraintes des formats fixes, NiT apprend les distributions visuelles intrinsèques à partir d'images couvrant une large gamme de résolutions et de ratios d'aspect. Notamment, un seul modèle NiT atteint simultanément des performances de pointe sur les benchmarks ImageNet-256x256 et 512x512. De manière surprenante, à l'instar des capacités robustes de généralisation zero-shot observées dans les grands modèles de langage avancés, NiT, entraîné uniquement sur ImageNet, démontre d'excellentes performances de généralisation zero-shot. Il génère avec succès des images haute fidélité à des résolutions inédites (par exemple, 1536 x 1536) et des ratios d'aspect variés (par exemple, 16:9, 3:1, 4:3), comme illustré dans la Figure 1. Ces résultats indiquent le potentiel significatif de la modélisation à résolution native en tant que pont entre la modélisation générative visuelle et les méthodologies avancées des grands modèles de langage.
English
We introduce native-resolution image synthesis, a novel generative modeling paradigm that enables the synthesis of images at arbitrary resolutions and aspect ratios. This approach overcomes the limitations of conventional fixed-resolution, square-image methods by natively handling variable-length visual tokens, a core challenge for traditional techniques. To this end, we introduce the Native-resolution diffusion Transformer (NiT), an architecture designed to explicitly model varying resolutions and aspect ratios within its denoising process. Free from the constraints of fixed formats, NiT learns intrinsic visual distributions from images spanning a broad range of resolutions and aspect ratios. Notably, a single NiT model simultaneously achieves the state-of-the-art performance on both ImageNet-256x256 and 512x512 benchmarks. Surprisingly, akin to the robust zero-shot capabilities seen in advanced large language models, NiT, trained solely on ImageNet, demonstrates excellent zero-shot generalization performance. It successfully generates high-fidelity images at previously unseen high resolutions (e.g., 1536 x 1536) and diverse aspect ratios (e.g., 16:9, 3:1, 4:3), as shown in Figure 1. These findings indicate the significant potential of native-resolution modeling as a bridge between visual generative modeling and advanced LLM methodologies.
PDF173June 4, 2025