텍스트-이미지 일관성 향상을 위한 자동 프롬프트 최적화
Improving Text-to-Image Consistency via Automatic Prompt Optimization
March 26, 2024
저자: Oscar Mañas, Pietro Astolfi, Melissa Hall, Candace Ross, Jack Urbanek, Adina Williams, Aishwarya Agrawal, Adriana Romero-Soriano, Michal Drozdzal
cs.AI
초록
텍스트-이미지(T2I) 생성 모델의 놀라운 발전은 미학적으로 매력적이고 사실적인 이미지를 생성할 수 있는 고성능 모델들을 다수 탄생시켰습니다. 그러나 이러한 진보에도 불구하고, 이 모델들은 여전히 입력 프롬프트와 일관된 이미지를 생성하는 데 어려움을 겪으며, 종종 객체의 수량, 관계 및 속성을 제대로 포착하지 못합니다. 프롬프트-이미지 일관성을 개선하기 위한 기존 솔루션들은 다음과 같은 문제점에 직면해 있습니다: (1) 모델 미세 조정이 필요한 경우가 많고, (2) 인접한 프롬프트 샘플에만 초점을 맞추며, (3) 이미지 품질, 표현 다양성, 프롬프트-이미지 일관성 간의 불리한 트레이드오프에 영향을 받습니다. 본 논문에서는 이러한 문제를 해결하고, 대규모 언어 모델(LLM)을 활용하여 T2I 모델의 프롬프트-이미지 일관성을 개선하는 프롬프트 최적화 프레임워크인 OPT2I를 소개합니다. 우리의 프레임워크는 사용자 프롬프트에서 시작하여 일관성 점수를 최대화하기 위해 수정된 프롬프트를 반복적으로 생성합니다. MSCOCO와 PartiPrompts 두 데이터셋에 대한 광범위한 검증을 통해, OPT2I가 초기 일관성 점수를 DSG 점수 기준으로 최대 24.9% 향상시키면서도 FID를 유지하고 생성된 데이터와 실제 데이터 간의 재현율을 증가시킬 수 있음을 보여줍니다. 본 연구는 LLM의 힘을 활용하여 더 신뢰할 수 있고 강력한 T2I 시스템을 구축하는 길을 열어줍니다.
English
Impressive advances in text-to-image (T2I) generative models have yielded a
plethora of high performing models which are able to generate aesthetically
appealing, photorealistic images. Despite the progress, these models still
struggle to produce images that are consistent with the input prompt,
oftentimes failing to capture object quantities, relations and attributes
properly. Existing solutions to improve prompt-image consistency suffer from
the following challenges: (1) they oftentimes require model fine-tuning, (2)
they only focus on nearby prompt samples, and (3) they are affected by
unfavorable trade-offs among image quality, representation diversity, and
prompt-image consistency. In this paper, we address these challenges and
introduce a T2I optimization-by-prompting framework, OPT2I, which leverages a
large language model (LLM) to improve prompt-image consistency in T2I models.
Our framework starts from a user prompt and iteratively generates revised
prompts with the goal of maximizing a consistency score. Our extensive
validation on two datasets, MSCOCO and PartiPrompts, shows that OPT2I can boost
the initial consistency score by up to 24.9% in terms of DSG score while
preserving the FID and increasing the recall between generated and real data.
Our work paves the way toward building more reliable and robust T2I systems by
harnessing the power of LLMs.Summary
AI-Generated Summary