ChatPaper.aiChatPaper

Échantillonneur AMO : Amélioration du rendu de texte avec dépassement

AMO Sampler: Enhancing Text Rendering with Overshooting

November 28, 2024
Auteurs: Xixi Hu, Keyang Xu, Bo Liu, Qiang Liu, Hongliang Fei
cs.AI

Résumé

Atteindre un alignement précis entre les instructions textuelles et les images générées dans la génération texte-image est un défi majeur, en particulier pour rendre du texte écrit dans les images. Les modèles de pointe tels que Stable Diffusion 3 (SD3), Flux et AuraFlow ont encore du mal avec la représentation précise du texte, ce qui entraîne des fautes d'orthographe ou un texte incohérent. Nous introduisons une méthode sans entraînement avec une surcharge computationnelle minimale qui améliore significativement la qualité de rendu du texte. Plus précisément, nous introduisons un échantillonneur de dépassement pour les modèles de flux rectifié (RF) pré-entraînés, en alternant entre la sur-simulation de l'équation différentielle ordinaire (ODE) apprise et la réintroduction de bruit. Comparé à l'échantillonneur d'Euler, l'échantillonneur de dépassement introduit efficacement un terme de dynamique de Langevin supplémentaire qui peut aider à corriger l'erreur cumulative des étapes d'Euler successives et donc améliorer le rendu du texte. Cependant, lorsque la force de dépassement est élevée, nous observons des artefacts de lissage excessif sur les images générées. Pour résoudre ce problème, nous proposons un échantillonneur de dépassement modulé par l'attention (AMO), qui contrôle de manière adaptative la force de dépassement pour chaque patch d'image en fonction de leur score d'attention avec le contenu textuel. AMO démontre une amélioration de 32,3 % et 35,9 % de la précision du rendu du texte sur SD3 et Flux sans compromettre la qualité globale de l'image ou augmenter le coût d'inférence.
English
Achieving precise alignment between textual instructions and generated images in text-to-image generation is a significant challenge, particularly in rendering written text within images. Sate-of-the-art models like Stable Diffusion 3 (SD3), Flux, and AuraFlow still struggle with accurate text depiction, resulting in misspelled or inconsistent text. We introduce a training-free method with minimal computational overhead that significantly enhances text rendering quality. Specifically, we introduce an overshooting sampler for pretrained rectified flow (RF) models, by alternating between over-simulating the learned ordinary differential equation (ODE) and reintroducing noise. Compared to the Euler sampler, the overshooting sampler effectively introduces an extra Langevin dynamics term that can help correct the compounding error from successive Euler steps and therefore improve the text rendering. However, when the overshooting strength is high, we observe over-smoothing artifacts on the generated images. To address this issue, we propose an Attention Modulated Overshooting sampler (AMO), which adaptively controls the strength of overshooting for each image patch according to their attention score with the text content. AMO demonstrates a 32.3% and 35.9% improvement in text rendering accuracy on SD3 and Flux without compromising overall image quality or increasing inference cost.

Summary

AI-Generated Summary

PDF32December 4, 2024