ChatPaper.aiChatPaper

UltraImage: Een nieuwe kijk op resolutie-extrapolatie in beeld-diffusietransformers

UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers

December 4, 2025
Auteurs: Min Zhao, Bokai Yan, Xue Yang, Hongzhou Zhu, Jintao Zhang, Shilong Liu, Chongxuan Li, Jun Zhu
cs.AI

Samenvatting

Recente beelddiffusietransformers bereiken hoogwaardige generatie, maar hebben moeite met het genereren van beelden buiten deze schalen, waarbij ze last hebben van inhoudsherhaling en kwaliteitsverlies. In dit werk presenteren we UltraImage, een principieel raamwerk dat beide problemen aanpakt. Door frequentiegewijze analyse van positionele inbeddingen identificeren we dat herhaling voortkomt uit de periodiciteit van de dominante frequentie, waarvan de periode overeenkomt met de trainingsresolutie. We introduceren een recursieve correctie van de dominante frequentie om deze na extrapolatie binnen een enkele periode te beperken. Verder stellen we vast dat kwaliteitsverlies voortvloeit uit verdunde aandacht en stellen daarom entropie-gestuurde adaptieve aandachtsconcentratie voor, die hogere focusfactoren toekent om lokale aandacht voor fijne details te verscherpen en lagere voor globale aandachtspatronen om structurele consistentie te behouden. Experimenten tonen aan dat UltraImage consistente superioriteit vertoont ten opzichte van eerdere methoden op Qwen-Image en Flux (rond 4K) in drie generatiescenario's, waarbij herhaling wordt verminderd en visuele kwaliteit wordt verbeterd. Bovendien kan UltraImage beelden genereren tot 6K*6K zonder begeleiding van lage resolutie vanaf een trainingsresolutie van 1328p, wat zijn extreme extrapolatievermogen aantoont. De projectpagina is beschikbaar op https://thu-ml.github.io/ultraimage.github.io/.
English
Recent image diffusion transformers achieve high-fidelity generation, but struggle to generate images beyond these scales, suffering from content repetition and quality degradation. In this work, we present UltraImage, a principled framework that addresses both issues. Through frequency-wise analysis of positional embeddings, we identify that repetition arises from the periodicity of the dominant frequency, whose period aligns with the training resolution. We introduce a recursive dominant frequency correction to constrain it within a single period after extrapolation. Furthermore, we find that quality degradation stems from diluted attention and thus propose entropy-guided adaptive attention concentration, which assigns higher focus factors to sharpen local attention for fine detail and lower ones to global attention patterns to preserve structural consistency. Experiments show that UltraImage consistently outperforms prior methods on Qwen-Image and Flux (around 4K) across three generation scenarios, reducing repetition and improving visual fidelity. Moreover, UltraImage can generate images up to 6K*6K without low-resolution guidance from a training resolution of 1328p, demonstrating its extreme extrapolation capability. Project page is available at https://thu-ml.github.io/ultraimage.github.io/{https://thu-ml.github.io/ultraimage.github.io/}.
PDF162December 21, 2025