SEGA : Attention Guidée par l’Énergie Spectrale pour l’Extrapolation de Résolution dans les Transformers de Diffusion

Résumé

Les transformers de diffusion (DiTs) se sont imposés comme une architecture dominante pour la génération texte-image, mais leurs performances chutent lorsqu'ils génèrent à des résolutions dépassant leur plage d'entraînement. Les approches existantes sans entraînement atténuent ce problème en modifiant le comportement de l'attention lors de l'inférence, souvent par le biais d'une extrapolation des embeddings de position rotatifs (RoPE) combinée à une mise à l'échelle de l'attention. Cependant, ces stratégies appliquent une mise à l'échelle uniforme et indépendante du contenu sur les composantes RoPE présentant des caractéristiques fréquentielles distinctes, ce qui induit un compromis entre la préservation de la structure globale et la récupération des détails fins. Nous introduisons SEGA, une méthode sans entraînement qui met dynamiquement à l'échelle l'attention sur les composantes RoPE en fonction de la structure spatio-fréquentielle du latent à chaque étape de débruitage. Cette mise à l'échelle adaptative améliore à la fois la cohérence structurelle et la fidélité des détails fins. Les expériences montrent que SEGA améliore systématiquement la synthèse haute résolution pour plusieurs résolutions cibles, surpassant les méthodes de référence sans entraînement de pointe.

English

Diffusion transformers (DiTs) have emerged as a dominant architecture for text-to-image generation, yet their performance drops when generating at resolutions beyond their training range. Existing training-free approaches mitigate this by modifying inference-time attention behavior, often through Rotary Position Embeddings (RoPE) extrapolation combined with attention scaling. However, these strategies apply a uniform and content-agnostic scaling across RoPE components with distinct frequency characteristics, inducing a trade-off between preserving global structure and recovering fine detail. We introduce SEGA, a training-free method that dynamically scales attention across RoPE components according to the latent's spatial-frequency structure at each denoising step. This adaptive scaling improves both structural coherence and fine-detail fidelity. Experiments show that SEGA consistently improves high-resolution synthesis across multiple target resolutions, outperforming state-of-the-art training-free baselines.