От размышления к совершенству: масштабирование оптимизации на этапе вывода для моделей диффузии "текст-изображение" с помощью настройки через отражение

Аннотация

Современные модели диффузии для генерации изображений по тексту достигают впечатляющего визуального качества благодаря масштабированию обучающих данных и параметров модели, однако часто испытывают трудности с обработкой сложных сцен и детализированных элементов. Вдохновленные способностью к саморефлексии, проявляющейся в крупных языковых моделях, мы предлагаем ReflectionFlow — фреймворк для этапа вывода, который позволяет моделям диффузии итеративно анализировать и улучшать свои результаты. ReflectionFlow вводит три взаимодополняющих оси масштабирования на этапе вывода: (1) масштабирование уровня шума для оптимизации инициализации латентного пространства; (2) масштабирование уровня подсказки для точного семантического управления; и, что наиболее важно, (3) масштабирование уровня рефлексии, которое явно предоставляет полезные отзывы для итеративной оценки и исправления предыдущих генераций. Для реализации масштабирования уровня рефлексии мы создали GenRef — крупномасштабный набор данных, содержащий 1 миллион триплетов, каждый из которых включает отзыв, изображение с недостатками и улучшенное изображение. Используя этот набор данных, мы эффективно выполняем настройку рефлексии для современного диффузионного трансформера FLUX.1-dev, совместно моделируя мультимодальные входные данные в рамках единого фреймворка. Экспериментальные результаты показывают, что ReflectionFlow значительно превосходит наивные методы масштабирования уровня шума, предлагая масштабируемое и вычислительно эффективное решение для синтеза изображений более высокого качества в сложных задачах.

English

Recent text-to-image diffusion models achieve impressive visual quality through extensive scaling of training data and model parameters, yet they often struggle with complex scenes and fine-grained details. Inspired by the self-reflection capabilities emergent in large language models, we propose ReflectionFlow, an inference-time framework enabling diffusion models to iteratively reflect upon and refine their outputs. ReflectionFlow introduces three complementary inference-time scaling axes: (1) noise-level scaling to optimize latent initialization; (2) prompt-level scaling for precise semantic guidance; and most notably, (3) reflection-level scaling, which explicitly provides actionable reflections to iteratively assess and correct previous generations. To facilitate reflection-level scaling, we construct GenRef, a large-scale dataset comprising 1 million triplets, each containing a reflection, a flawed image, and an enhanced image. Leveraging this dataset, we efficiently perform reflection tuning on state-of-the-art diffusion transformer, FLUX.1-dev, by jointly modeling multimodal inputs within a unified framework. Experimental results show that ReflectionFlow significantly outperforms naive noise-level scaling methods, offering a scalable and compute-efficient solution toward higher-quality image synthesis on challenging tasks.

От размышления к совершенству: масштабирование оптимизации на этапе вывода для моделей диффузии "текст-изображение" с помощью настройки через отражение

From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning

Аннотация

Support