ChatPaper.aiChatPaper

RePrompt: 강화 학습을 통한 추론 강화 리프롬프팅 기반 텍스트-이미지 생성

RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning

May 23, 2025
저자: Mingrui Wu, Lu Wang, Pu Zhao, Fangkai Yang, Jianjin Zhang, Jianfeng Liu, Yuefeng Zhan, Weihao Han, Hao Sun, Jiayi Ji, Xiaoshuai Sun, Qingwei Lin, Weiwei Deng, Dongmei Zhang, Feng Sun, Qi Zhang, Rongrong Ji
cs.AI

초록

텍스트-이미지(T2I) 생성 분야의 최근 발전에도 불구하고, 기존 모델들은 짧고 불충분하게 명시된 프롬프트에서 사용자의 의도를 충실히 반영하는 데 어려움을 겪습니다. 선행 연구에서는 대형 언어 모델(LLM)을 사용해 프롬프트를 개선하려는 시도가 있었지만, 이러한 방법들은 시각적 의미론과 현실 세계의 구성을 충분히 반영하지 못해 스타일리시하거나 비현실적인 콘텐츠를 생성하는 경우가 많았습니다. 언어 모델의 추론 기술 최근 발전에 영감을 받아, 우리는 강화 학습을 통해 프롬프트 개선 과정에 명시적 추론을 도입한 새로운 리프롬프팅 프레임워크인 RePrompt를 제안합니다. 수작업 규칙이나 스타일리시한 재작성에 의존하는 대신, 우리의 방법은 언어 모델을 훈련시켜 이미지 수준의 결과를 최적화함으로써 구조화되고 자기 반영적인 프롬프트를 생성하도록 합니다. 맞춤형 보상 모델은 생성된 이미지를 인간의 선호도, 의미론적 정렬, 시각적 구성 측면에서 평가하여 프롬프트 생성을 개선하기 위한 간접적인 지도를 제공합니다. 우리의 접근 방식은 인간 주석 데이터 없이도 종단간(end-to-end) 훈련을 가능하게 합니다. GenEval과 T2I-Compbench에서의 실험 결과, RePrompt는 다양한 T2I 백본에서 공간 레이아웃 충실도와 구성적 일반화를 크게 향상시키며 새로운 최첨단 결과를 달성함을 보여줍니다.
English
Despite recent progress in text-to-image (T2I) generation, existing models often struggle to faithfully capture user intentions from short and under-specified prompts. While prior work has attempted to enhance prompts using large language models (LLMs), these methods frequently generate stylistic or unrealistic content due to insufficient grounding in visual semantics and real-world composition. Inspired by recent advances in reasoning for language model, we propose RePrompt, a novel reprompting framework that introduces explicit reasoning into the prompt enhancement process via reinforcement learning. Instead of relying on handcrafted rules or stylistic rewrites, our method trains a language model to generate structured, self-reflective prompts by optimizing for image-level outcomes. The tailored reward models assesse the generated images in terms of human preference, semantic alignment, and visual composition, providing indirect supervision to refine prompt generation. Our approach enables end-to-end training without human-annotated data. Experiments on GenEval and T2I-Compbench show that RePrompt significantly boosts spatial layout fidelity and compositional generalization across diverse T2I backbones, establishing new state-of-the-art results.

Summary

AI-Generated Summary

PDF72May 26, 2025