Reflect-DiT: Масштабирование на этапе вывода для диффузионных трансформаторов текст-изображение с использованием внутриконтекстного отражения
Reflect-DiT: Inference-Time Scaling for Text-to-Image Diffusion Transformers via In-Context Reflection
March 15, 2025
Авторы: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Arsh Koneru, Yusuke Kato, Kazuki Kozuka, Aditya Grover
cs.AI
Аннотация
Основной подход к совершенствованию генерации изображений по тексту заключается в масштабировании на этапе обучения, где более крупные модели обучаются на большем объеме данных с использованием больших вычислительных ресурсов. Хотя этот подход эффективен, он требует значительных вычислительных затрат, что вызывает растущий интерес к масштабированию на этапе вывода для улучшения производительности. В настоящее время масштабирование на этапе вывода для диффузионных моделей генерации изображений по тексту в основном ограничивается методом best-of-N, где для каждого запроса генерируется несколько изображений, а модель выбора определяет наилучший результат. Вдохновленные недавними успехами моделей рассуждений, таких как DeepSeek-R1, в области обработки естественного языка, мы предлагаем альтернативу наивному методу best-of-N, оснащая диффузионные трансформеры (Diffusion Transformers) возможностью контекстного анализа. Мы представляем Reflect-DiT — метод, который позволяет диффузионным трансформерам улучшать свои генерации, используя контекстные примеры ранее созданных изображений вместе с текстовыми отзывами, описывающими необходимые улучшения. Вместо пассивного ожидания лучшего результата в будущей генерации, Reflect-DiT явно адаптирует свои генерации для устранения конкретных аспектов, требующих улучшения. Экспериментальные результаты показывают, что Reflect-DiT улучшает производительность на бенчмарке GenEval (+0.19) при использовании базовой модели SANA-1.0-1.6B. Кроме того, метод достигает нового рекордного показателя 0.81 на GenEval, генерируя всего 20 образцов на запрос, что превосходит предыдущий лучший результат 0.80, достигнутый с использованием значительно более крупной модели (SANA-1.5-4.8B) и 2048 образцов в рамках подхода best-of-N.
English
The predominant approach to advancing text-to-image generation has been
training-time scaling, where larger models are trained on more data using
greater computational resources. While effective, this approach is
computationally expensive, leading to growing interest in inference-time
scaling to improve performance. Currently, inference-time scaling for
text-to-image diffusion models is largely limited to best-of-N sampling, where
multiple images are generated per prompt and a selection model chooses the best
output. Inspired by the recent success of reasoning models like DeepSeek-R1 in
the language domain, we introduce an alternative to naive best-of-N sampling by
equipping text-to-image Diffusion Transformers with in-context reflection
capabilities. We propose Reflect-DiT, a method that enables Diffusion
Transformers to refine their generations using in-context examples of
previously generated images alongside textual feedback describing necessary
improvements. Instead of passively relying on random sampling and hoping for a
better result in a future generation, Reflect-DiT explicitly tailors its
generations to address specific aspects requiring enhancement. Experimental
results demonstrate that Reflect-DiT improves performance on the GenEval
benchmark (+0.19) using SANA-1.0-1.6B as a base model. Additionally, it
achieves a new state-of-the-art score of 0.81 on GenEval while generating only
20 samples per prompt, surpassing the previous best score of 0.80, which was
obtained using a significantly larger model (SANA-1.5-4.8B) with 2048 samples
under the best-of-N approach.Summary
AI-Generated Summary