Muestreador AMO: Mejorando la Representación de Texto con Sobrepaso
AMO Sampler: Enhancing Text Rendering with Overshooting
November 28, 2024
Autores: Xixi Hu, Keyang Xu, Bo Liu, Qiang Liu, Hongliang Fei
cs.AI
Resumen
Lograr una alineación precisa entre las instrucciones textuales y las imágenes generadas en la generación de texto a imagen es un desafío significativo, especialmente en la representación del texto escrito dentro de las imágenes. Modelos de vanguardia como Stable Diffusion 3 (SD3), Flux y AuraFlow aún tienen dificultades con la representación precisa del texto, lo que resulta en errores ortográficos o texto inconsistente. Introducimos un método sin entrenamiento con un mínimo sobrecosto computacional que mejora significativamente la calidad de representación del texto. Específicamente, presentamos un muestreador de sobrepaso para modelos de flujo rectificado (RF) preentrenados, alternando entre sobresimular la ecuación diferencial ordinaria (ODE) aprendida y reintroducir ruido. En comparación con el muestreador de Euler, el muestreador de sobrepaso introduce efectivamente un término adicional de dinámica de Langevin que puede ayudar a corregir el error acumulativo de los pasos sucesivos de Euler y, por lo tanto, mejorar la representación del texto. Sin embargo, cuando la fuerza de sobrepaso es alta, observamos artefactos de suavizado excesivo en las imágenes generadas. Para abordar este problema, proponemos un muestreador de Sobrepaso Modulado por Atención (AMO), que controla de manera adaptativa la fuerza de sobrepaso para cada parche de imagen según su puntuación de atención con el contenido del texto. AMO demuestra una mejora del 32,3% y 35,9% en la precisión de representación del texto en SD3 y Flux sin comprometer la calidad general de la imagen o aumentar el costo de inferencia.
English
Achieving precise alignment between textual instructions and generated images
in text-to-image generation is a significant challenge, particularly in
rendering written text within images. Sate-of-the-art models like Stable
Diffusion 3 (SD3), Flux, and AuraFlow still struggle with accurate text
depiction, resulting in misspelled or inconsistent text. We introduce a
training-free method with minimal computational overhead that significantly
enhances text rendering quality. Specifically, we introduce an overshooting
sampler for pretrained rectified flow (RF) models, by alternating between
over-simulating the learned ordinary differential equation (ODE) and
reintroducing noise. Compared to the Euler sampler, the overshooting sampler
effectively introduces an extra Langevin dynamics term that can help correct
the compounding error from successive Euler steps and therefore improve the
text rendering. However, when the overshooting strength is high, we observe
over-smoothing artifacts on the generated images. To address this issue, we
propose an Attention Modulated Overshooting sampler (AMO), which adaptively
controls the strength of overshooting for each image patch according to their
attention score with the text content. AMO demonstrates a 32.3% and 35.9%
improvement in text rendering accuracy on SD3 and Flux without compromising
overall image quality or increasing inference cost.Summary
AI-Generated Summary