ChatPaper.aiChatPaper

UltraImage: 이미지 확산 트랜스포머의 해상도 외삽 재고찰

UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers

December 4, 2025
저자: Min Zhao, Bokai Yan, Xue Yang, Hongzhou Zhu, Jintao Zhang, Shilong Liu, Chongxuan Li, Jun Zhu
cs.AI

초록

최근의 이미지 디퓨전 트랜스포머는 높은 정확도의 생성을 달성하지만, 이러한 규모를 넘어서는 이미지 생성에는 콘텐츠 반복 및 화질 저하 문제가 발생하며 어려움을 겪고 있습니다. 본 연구에서는 이러한 두 가지 문제를 해결하는 원리 기반 프레임워크인 UltraImage를 제시합니다. 위치 임베딩에 대한 주파수별 분석을 통해, 반복 현상이 지배적 주파수의 주기성에서 비롯되며, 그 주기가 학습 해상도와 일치함을 규명했습니다. 우리는 외삽 후 지배적 주파수가 단일 주기 내에 머물도록 제한하는 재귀적 지배 주파수 보정을 도입했습니다. 더 나아가 화질 저하가 희석된 어텐션에서 비롯됨을 발견하고, 엔트로피 기반 적응형 어텐션 집중을 제안합니다. 이는 미세한 디테일을 선명하게 하기 위해 지역 어텐션에 더 높은 집중 계수를, 구조적 일관성을 유지하기 위해 전역 어텐션 패턴에 더 낮은 집중 계수를 할당합니다. 실험 결과, UltraImage는 세 가지 생성 시나리오에서 Qwen-Image 및 Flux(약 4K 기준)에 대해 기존 방법들을 지속적으로 능가하며, 반복을 줄이고 시각적 정확도를 향상시킴을 보여줍니다. 또한 UltraImage는 1328p 학습 해상도에서 저해상도 가이드 없이 최대 6K*6K 이미지 생성이 가능하여 극한의 외삽 능력을 입증했습니다. 프로젝트 페이지는 https://thu-ml.github.io/ultraimage.github.io/ 에서 확인할 수 있습니다.
English
Recent image diffusion transformers achieve high-fidelity generation, but struggle to generate images beyond these scales, suffering from content repetition and quality degradation. In this work, we present UltraImage, a principled framework that addresses both issues. Through frequency-wise analysis of positional embeddings, we identify that repetition arises from the periodicity of the dominant frequency, whose period aligns with the training resolution. We introduce a recursive dominant frequency correction to constrain it within a single period after extrapolation. Furthermore, we find that quality degradation stems from diluted attention and thus propose entropy-guided adaptive attention concentration, which assigns higher focus factors to sharpen local attention for fine detail and lower ones to global attention patterns to preserve structural consistency. Experiments show that UltraImage consistently outperforms prior methods on Qwen-Image and Flux (around 4K) across three generation scenarios, reducing repetition and improving visual fidelity. Moreover, UltraImage can generate images up to 6K*6K without low-resolution guidance from a training resolution of 1328p, demonstrating its extreme extrapolation capability. Project page is available at https://thu-ml.github.io/ultraimage.github.io/{https://thu-ml.github.io/ultraimage.github.io/}.
PDF121December 6, 2025