ChatPaper.aiChatPaper

От размышления к совершенству: масштабирование оптимизации на этапе вывода для моделей диффузии "текст-изображение" с помощью настройки через отражение

From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning

April 22, 2025
Авторы: Le Zhuo, Liangbing Zhao, Sayak Paul, Yue Liao, Renrui Zhang, Yi Xin, Peng Gao, Mohamed Elhoseiny, Hongsheng Li
cs.AI

Аннотация

Современные модели диффузии для генерации изображений по тексту достигают впечатляющего визуального качества благодаря масштабированию обучающих данных и параметров модели, однако часто испытывают трудности с обработкой сложных сцен и детализированных элементов. Вдохновленные способностью к саморефлексии, проявляющейся в крупных языковых моделях, мы предлагаем ReflectionFlow — фреймворк для этапа вывода, который позволяет моделям диффузии итеративно анализировать и улучшать свои результаты. ReflectionFlow вводит три взаимодополняющих оси масштабирования на этапе вывода: (1) масштабирование уровня шума для оптимизации инициализации латентного пространства; (2) масштабирование уровня подсказки для точного семантического управления; и, что наиболее важно, (3) масштабирование уровня рефлексии, которое явно предоставляет полезные отзывы для итеративной оценки и исправления предыдущих генераций. Для реализации масштабирования уровня рефлексии мы создали GenRef — крупномасштабный набор данных, содержащий 1 миллион триплетов, каждый из которых включает отзыв, изображение с недостатками и улучшенное изображение. Используя этот набор данных, мы эффективно выполняем настройку рефлексии для современного диффузионного трансформера FLUX.1-dev, совместно моделируя мультимодальные входные данные в рамках единого фреймворка. Экспериментальные результаты показывают, что ReflectionFlow значительно превосходит наивные методы масштабирования уровня шума, предлагая масштабируемое и вычислительно эффективное решение для синтеза изображений более высокого качества в сложных задачах.
English
Recent text-to-image diffusion models achieve impressive visual quality through extensive scaling of training data and model parameters, yet they often struggle with complex scenes and fine-grained details. Inspired by the self-reflection capabilities emergent in large language models, we propose ReflectionFlow, an inference-time framework enabling diffusion models to iteratively reflect upon and refine their outputs. ReflectionFlow introduces three complementary inference-time scaling axes: (1) noise-level scaling to optimize latent initialization; (2) prompt-level scaling for precise semantic guidance; and most notably, (3) reflection-level scaling, which explicitly provides actionable reflections to iteratively assess and correct previous generations. To facilitate reflection-level scaling, we construct GenRef, a large-scale dataset comprising 1 million triplets, each containing a reflection, a flawed image, and an enhanced image. Leveraging this dataset, we efficiently perform reflection tuning on state-of-the-art diffusion transformer, FLUX.1-dev, by jointly modeling multimodal inputs within a unified framework. Experimental results show that ReflectionFlow significantly outperforms naive noise-level scaling methods, offering a scalable and compute-efficient solution toward higher-quality image synthesis on challenging tasks.

Summary

AI-Generated Summary

PDF152April 23, 2025