SEGA: Spectral-Energy Gestuurde Aandacht voor Resolutie-extrapolatie in Diffusietransformatoren

Samenvatting

Diffusietransformers (DiTs) zijn uitgegroeid tot een dominante architectuur voor tekst-naar-beeld generatie, maar hun prestaties nemen af bij het genereren op resoluties buiten hun trainingsbereik. Bestaande trainingsvrije benaderingen verminderen dit door het aandachtgedrag tijdens inferentie aan te passen, vaak via extrapolatie van Rotary Position Embeddings (RoPE) gecombineerd met aandachtsschaling. Deze strategieën passen echter een uniforme en inhoudsagnostische schaling toe over RoPE-componenten met verschillende frequentiekenmerken, wat leidt tot een afweging tussen het behoud van globale structuur en het herstellen van fijne details. Wij introduceren SEGA, een trainingsvrije methode die de aandacht dynamisch schaalt over RoPE-componenten op basis van de ruimtelijke-frequentie structuur van de latent op elke denoisingstap. Deze adaptieve schaling verbetert zowel de structurele coherentie als de getrouwheid van fijne details. Experimenten tonen aan dat SEGA consistent de synthese op hoge resolutie verbetert over meerdere doelsresoluties, en daarbij state-of-the-art trainingsvrije baselines overtreft.

English

Diffusion transformers (DiTs) have emerged as a dominant architecture for text-to-image generation, yet their performance drops when generating at resolutions beyond their training range. Existing training-free approaches mitigate this by modifying inference-time attention behavior, often through Rotary Position Embeddings (RoPE) extrapolation combined with attention scaling. However, these strategies apply a uniform and content-agnostic scaling across RoPE components with distinct frequency characteristics, inducing a trade-off between preserving global structure and recovering fine detail. We introduce SEGA, a training-free method that dynamically scales attention across RoPE components according to the latent's spatial-frequency structure at each denoising step. This adaptive scaling improves both structural coherence and fine-detail fidelity. Experiments show that SEGA consistently improves high-resolution synthesis across multiple target resolutions, outperforming state-of-the-art training-free baselines.