네이티브 해상도 이미지 합성
Native-Resolution Image Synthesis
June 3, 2025
저자: Zidong Wang, Lei Bai, Xiangyu Yue, Wanli Ouyang, Yiyuan Zhang
cs.AI
초록
우리는 임의의 해상도와 종횡비로 이미지를 합성할 수 있는 새로운 생성 모델링 패러다임인 네이티브 해상도 이미지 합성을 소개한다. 이 접근법은 가변 길이 시각적 토큰을 네이티브하게 처리함으로써 기존의 고정 해상도 및 정사각형 이미지 방법의 한계를 극복한다. 이를 위해, 우리는 디노이징 프로세스 내에서 다양한 해상도와 종횡비를 명시적으로 모델링하도록 설계된 네이티브 해상도 디퓨전 트랜스포머(NiT) 아키텍처를 제안한다. 고정된 형식의 제약에서 벗어난 NiT는 광범위한 해상도와 종횡비를 가진 이미지로부터 내재적인 시각적 분포를 학습한다. 특히, 단일 NiT 모델은 ImageNet-256x256 및 512x512 벤치마크에서 동시에 최첨단 성능을 달성한다. 놀랍게도, 고급 대형 언어 모델에서 볼 수 있는 강력한 제로샷 능력과 유사하게, ImageNet만으로 훈련된 NiT는 우수한 제로샷 일반화 성능을 보여준다. 이 모델은 이전에 보지 못한 고해상도(예: 1536 x 1536)와 다양한 종횡비(예: 16:9, 3:1, 4:3)에서도 고품질의 이미지를 성공적으로 생성한다(그림 1 참조). 이러한 결과는 네이티브 해상도 모델링이 시각적 생성 모델링과 고급 LLM 방법론 사이의 가교로서의 잠재력을 보여준다.
English
We introduce native-resolution image synthesis, a novel generative modeling
paradigm that enables the synthesis of images at arbitrary resolutions and
aspect ratios. This approach overcomes the limitations of conventional
fixed-resolution, square-image methods by natively handling variable-length
visual tokens, a core challenge for traditional techniques. To this end, we
introduce the Native-resolution diffusion Transformer (NiT), an architecture
designed to explicitly model varying resolutions and aspect ratios within its
denoising process. Free from the constraints of fixed formats, NiT learns
intrinsic visual distributions from images spanning a broad range of
resolutions and aspect ratios. Notably, a single NiT model simultaneously
achieves the state-of-the-art performance on both ImageNet-256x256 and 512x512
benchmarks. Surprisingly, akin to the robust zero-shot capabilities seen in
advanced large language models, NiT, trained solely on ImageNet, demonstrates
excellent zero-shot generalization performance. It successfully generates
high-fidelity images at previously unseen high resolutions (e.g., 1536 x 1536)
and diverse aspect ratios (e.g., 16:9, 3:1, 4:3), as shown in Figure 1. These
findings indicate the significant potential of native-resolution modeling as a
bridge between visual generative modeling and advanced LLM methodologies.