SEGA: Atenção Guiada por Energia Espectral para Extrapolação de Resolução em Transformadores de Difusão

Resumo

Transformadores de difusão (DiTs) emergiram como uma arquitetura dominante para geração de texto para imagem, mas seu desempenho cai ao gerar em resoluções além do seu alcance de treinamento. Abordagens existentes livres de treinamento mitigam isso modificando o comportamento da atenção durante a inferência, frequentemente por meio de extrapolação de Embeddings de Posição Rotativa (RoPE) combinada com escalonamento de atenção. No entanto, essas estratégias aplicam um escalonamento uniforme e independente do conteúdo entre componentes RoPE com características de frequência distintas, induzindo um compromisso entre preservar a estrutura global e recuperar detalhes finos. Apresentamos SEGA, um método livre de treinamento que escala dinamicamente a atenção entre componentes RoPE de acordo com a estrutura espacial de frequência do latente em cada etapa de remoção de ruído. Esse escalonamento adaptativo melhora tanto a coerência estrutural quanto a fidelidade de detalhes finos. Experimentos mostram que SEGA melhora consistentemente a síntese de alta resolução em múltiplas resoluções alvo, superando baselines livres de treinamento do estado da arte.

English

Diffusion transformers (DiTs) have emerged as a dominant architecture for text-to-image generation, yet their performance drops when generating at resolutions beyond their training range. Existing training-free approaches mitigate this by modifying inference-time attention behavior, often through Rotary Position Embeddings (RoPE) extrapolation combined with attention scaling. However, these strategies apply a uniform and content-agnostic scaling across RoPE components with distinct frequency characteristics, inducing a trade-off between preserving global structure and recovering fine detail. We introduce SEGA, a training-free method that dynamically scales attention across RoPE components according to the latent's spatial-frequency structure at each denoising step. This adaptive scaling improves both structural coherence and fine-detail fidelity. Experiments show that SEGA consistently improves high-resolution synthesis across multiple target resolutions, outperforming state-of-the-art training-free baselines.