SEGA: Spektral-Energie-gesteuerte Aufmerksamkeit zur Auflösungsextrapolation in Diffusionstransformatoren

Zusammenfassung

Diffusions-Transformer (DiTs) haben sich als dominante Architektur für die Text-zu-Bild-Generierung etabliert, jedoch sinkt ihre Leistung bei der Erzeugung von Auflösungen jenseits des Trainingsbereichs. Bestehende trainingsfreie Ansätze mildern dies durch Modifikation des Inferenz-Aufmerksamkeitsverhaltens, häufig mittels Extrapolation der Rotary Position Embeddings (RoPE) in Kombination mit Aufmerksamkeitsskalierung. Allerdings wenden diese Strategien eine gleichmäßige und inhaltsunabhängige Skalierung auf RoPE-Komponenten mit unterschiedlichen Frequenzcharakteristiken an, was zu einem Zielkonflikt zwischen der Bewahrung globaler Struktur und der Wiederherstellung feiner Details führt. Wir stellen SEGA vor, eine trainingsfreie Methode, die die Aufmerksamkeit über RoPE-Komponenten hinweg dynamisch entsprechend der räumlich-frequentiellen Struktur der latenten Repräsentation in jedem Entrauschungsschritt skaliert. Diese adaptive Skalierung verbessert sowohl die strukturelle Kohärenz als auch die Detailtreue. Experimente zeigen, dass SEGA die hochauflösende Synthese über mehrere Zielauflösungen hinweg konsistent verbessert und dabei die modernsten trainingsfreien Basislinien übertrifft.

English

Diffusion transformers (DiTs) have emerged as a dominant architecture for text-to-image generation, yet their performance drops when generating at resolutions beyond their training range. Existing training-free approaches mitigate this by modifying inference-time attention behavior, often through Rotary Position Embeddings (RoPE) extrapolation combined with attention scaling. However, these strategies apply a uniform and content-agnostic scaling across RoPE components with distinct frequency characteristics, inducing a trade-off between preserving global structure and recovering fine detail. We introduce SEGA, a training-free method that dynamically scales attention across RoPE components according to the latent's spatial-frequency structure at each denoising step. This adaptive scaling improves both structural coherence and fine-detail fidelity. Experiments show that SEGA consistently improves high-resolution synthesis across multiple target resolutions, outperforming state-of-the-art training-free baselines.