SEGA: Atención Guiada por Energía Espectral para Extrapolación de Resolución en Transformers de Difusión

Resumen

Los transformadores de difusión (DiTs) se han consolidado como una arquitectura dominante para la generación de texto a imagen, pero su rendimiento disminuye al generar en resoluciones superiores a su rango de entrenamiento. Los enfoques existentes sin entrenamiento mitigan este problema modificando el comportamiento de la atención durante la inferencia, a menudo mediante la extrapolación de Incrustaciones de Posición Rotatoria (RoPE) combinada con escalado de atención. Sin embargo, estas estrategias aplican un escalado uniforme e independiente del contenido a los componentes de RoPE con distintas características de frecuencia, lo que genera un equilibrio entre preservar la estructura global y recuperar los detalles finos. Introducimos SEGA, un método sin entrenamiento que escala dinámicamente la atención a través de los componentes de RoPE según la estructura de frecuencia espacial del latente en cada paso de eliminación de ruido. Este escalado adaptativo mejora tanto la coherencia estructural como la fidelidad de los detalles finos. Los experimentos muestran que SEGA mejora constantemente la síntesis de alta resolución en múltiples resoluciones objetivo, superando a las líneas de base sin entrenamiento del estado del arte.

English

Diffusion transformers (DiTs) have emerged as a dominant architecture for text-to-image generation, yet their performance drops when generating at resolutions beyond their training range. Existing training-free approaches mitigate this by modifying inference-time attention behavior, often through Rotary Position Embeddings (RoPE) extrapolation combined with attention scaling. However, these strategies apply a uniform and content-agnostic scaling across RoPE components with distinct frequency characteristics, inducing a trade-off between preserving global structure and recovering fine detail. We introduce SEGA, a training-free method that dynamically scales attention across RoPE components according to the latent's spatial-frequency structure at each denoising step. This adaptive scaling improves both structural coherence and fine-detail fidelity. Experiments show that SEGA consistently improves high-resolution synthesis across multiple target resolutions, outperforming state-of-the-art training-free baselines.