AMOサンプラー:オーバーシューティングを用いたテキストレンダリングの向上
AMO Sampler: Enhancing Text Rendering with Overshooting
November 28, 2024
著者: Xixi Hu, Keyang Xu, Bo Liu, Qiang Liu, Hongliang Fei
cs.AI
要旨
テキストから画像を生成するテキスト対画像生成において、テキスト指示と生成された画像との正確な整合性を達成することは、特に画像内の書かれたテキストをレンダリングする際には、著しい課題です。Stable Diffusion 3(SD3)、Flux、AuraFlowなどの最先端モデルは、正確なテキスト描写に依然として苦労しており、綴りの間違いや不整合なテキストが生じています。本研究では、トレーニング不要の方法を導入し、計算オーバーヘッドを最小限に抑えつつ、テキストのレンダリング品質を大幅に向上させます。具体的には、事前学習された修正フロー(RF)モデル用のオーバーシューティング・サンプラーを導入し、学習された常微分方程式(ODE)を過度にシミュレートし、ノイズを再導入することで交互に振ることで、Eulerサンプラーと比較して、オーバーシューティング・サンプラーは、連続するEulerステップからの複合誤差を修正するのに役立つ追加のランジュバンダイナミクス項を効果的に導入し、したがってテキストのレンダリングを改善します。ただし、オーバーシューティングの強度が高い場合、生成された画像にオーバースムージングのアーティファクトが観察されます。この問題に対処するために、Attention Modulated Overshootingサンプラー(AMO)を提案し、各画像パッチのテキスト内容との注意スコアに応じて、オーバーシューティングの強度を適応的に制御します。AMOは、SD3およびFluxにおいてテキストのレンダリング精度を32.3%および35.9%向上させ、全体的な画像品質を損なうことなく推論コストを増やすことなく、改善を実証します。
English
Achieving precise alignment between textual instructions and generated images
in text-to-image generation is a significant challenge, particularly in
rendering written text within images. Sate-of-the-art models like Stable
Diffusion 3 (SD3), Flux, and AuraFlow still struggle with accurate text
depiction, resulting in misspelled or inconsistent text. We introduce a
training-free method with minimal computational overhead that significantly
enhances text rendering quality. Specifically, we introduce an overshooting
sampler for pretrained rectified flow (RF) models, by alternating between
over-simulating the learned ordinary differential equation (ODE) and
reintroducing noise. Compared to the Euler sampler, the overshooting sampler
effectively introduces an extra Langevin dynamics term that can help correct
the compounding error from successive Euler steps and therefore improve the
text rendering. However, when the overshooting strength is high, we observe
over-smoothing artifacts on the generated images. To address this issue, we
propose an Attention Modulated Overshooting sampler (AMO), which adaptively
controls the strength of overshooting for each image patch according to their
attention score with the text content. AMO demonstrates a 32.3% and 35.9%
improvement in text rendering accuracy on SD3 and Flux without compromising
overall image quality or increasing inference cost.Summary
AI-Generated Summary