SEGA: Внимание, управляемое спектральной энергией, для экстраполяции разрешения в диффузионных трансформерах

Аннотация

Диффузионные трансформеры (DiTs) стали доминирующей архитектурой для генерации текста в изображение, однако их производительность снижается при генерации на разрешениях, выходящих за пределы тренировочного диапазона. Существующие подходы без обучения смягчают это путем модификации поведения внимания во время вывода, часто посредством экстраполяции поворотных позиционных внедрений (RoPE) в сочетании с масштабированием внимания. Однако эти стратегии применяют равномерное и не зависящее от содержимого масштабирование к компонентам RoPE с различными частотными характеристиками, что приводит к компромиссу между сохранением глобальной структуры и восстановлением мелких деталей. Мы представляем SEGA — метод без обучения, который динамически масштабирует внимание по компонентам RoPE в соответствии с пространственно-частотной структурой латентного представления на каждом шаге шумоподавления. Такое адаптивное масштабирование улучшает как структурную когерентность, так и точность мелких деталей. Эксперименты показывают, что SEGA последовательно улучшает синтез высокого разрешения для нескольких целевых разрешений, превосходя передовые базовые методы без обучения.

English

Diffusion transformers (DiTs) have emerged as a dominant architecture for text-to-image generation, yet their performance drops when generating at resolutions beyond their training range. Existing training-free approaches mitigate this by modifying inference-time attention behavior, often through Rotary Position Embeddings (RoPE) extrapolation combined with attention scaling. However, these strategies apply a uniform and content-agnostic scaling across RoPE components with distinct frequency characteristics, inducing a trade-off between preserving global structure and recovering fine detail. We introduce SEGA, a training-free method that dynamically scales attention across RoPE components according to the latent's spatial-frequency structure at each denoising step. This adaptive scaling improves both structural coherence and fine-detail fidelity. Experiments show that SEGA consistently improves high-resolution synthesis across multiple target resolutions, outperforming state-of-the-art training-free baselines.