ChatPaper.aiChatPaper

반영에서 완벽으로: 반영 튜닝을 통한 텍스트-이미지 확산 모델의 추론 시간 최적화 확장

From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning

April 22, 2025
저자: Le Zhuo, Liangbing Zhao, Sayak Paul, Yue Liao, Renrui Zhang, Yi Xin, Peng Gao, Mohamed Elhoseiny, Hongsheng Li
cs.AI

초록

최근의 텍스트-이미지 확산 모델은 방대한 양의 학습 데이터와 모델 파라미터를 통해 인상적인 시각적 품질을 달성했지만, 복잡한 장면과 세밀한 디테일에서는 종종 어려움을 겪습니다. 대규모 언어 모델에서 나타나는 자기 반영 능력에 영감을 받아, 우리는 ReflectionFlow를 제안합니다. 이는 추론 시간에 확산 모델이 출력을 반복적으로 반영하고 개선할 수 있도록 하는 프레임워크입니다. ReflectionFlow는 세 가지 상호 보완적인 추론 시간 스케일링 축을 도입합니다: (1) 잠재 초기화를 최적화하기 위한 노이즈 수준 스케일링; (2) 정확한 의미론적 안내를 위한 프롬프트 수준 스케일링; 그리고 가장 주목할 만한 (3) 반영 수준 스케일링으로, 이는 이전 생성물을 반복적으로 평가하고 수정하기 위한 실행 가능한 반영을 명시적으로 제공합니다. 반영 수준 스케일링을 용이하게 하기 위해, 우리는 100만 개의 삼중항으로 구성된 대규모 데이터셋인 GenRef를 구축했습니다. 각 삼중항은 반영, 결함이 있는 이미지, 그리고 개선된 이미지를 포함합니다. 이 데이터셋을 활용하여, 우리는 최신 확산 트랜스포머인 FLUX.1-dev에 대해 반영 튜닝을 효율적으로 수행하며, 다중 모드 입력을 통합된 프레임워크 내에서 공동으로 모델링합니다. 실험 결과는 ReflectionFlow가 단순한 노이즈 수준 스케일링 방법을 크게 능가하며, 도전적인 작업에서 더 높은 품질의 이미지 합성을 위한 확장 가능하고 계산 효율적인 솔루션을 제공함을 보여줍니다.
English
Recent text-to-image diffusion models achieve impressive visual quality through extensive scaling of training data and model parameters, yet they often struggle with complex scenes and fine-grained details. Inspired by the self-reflection capabilities emergent in large language models, we propose ReflectionFlow, an inference-time framework enabling diffusion models to iteratively reflect upon and refine their outputs. ReflectionFlow introduces three complementary inference-time scaling axes: (1) noise-level scaling to optimize latent initialization; (2) prompt-level scaling for precise semantic guidance; and most notably, (3) reflection-level scaling, which explicitly provides actionable reflections to iteratively assess and correct previous generations. To facilitate reflection-level scaling, we construct GenRef, a large-scale dataset comprising 1 million triplets, each containing a reflection, a flawed image, and an enhanced image. Leveraging this dataset, we efficiently perform reflection tuning on state-of-the-art diffusion transformer, FLUX.1-dev, by jointly modeling multimodal inputs within a unified framework. Experimental results show that ReflectionFlow significantly outperforms naive noise-level scaling methods, offering a scalable and compute-efficient solution toward higher-quality image synthesis on challenging tasks.

Summary

AI-Generated Summary

PDF152April 23, 2025