ChatPaper.aiChatPaper

FRAP: 적응형 프롬프트 가중치를 사용한 신뢰성 있고 현실적인 텍스트에서 이미지로의 생성

FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting

August 21, 2024
저자: Liyao Jiang, Negar Hassanpour, Mohammad Salameh, Mohan Sai Singamsetti, Fengyu Sun, Wei Lu, Di Niu
cs.AI

초록

텍스트-이미지(T2I) 확산 모델은 텍스트 프롬프트가 주어졌을 때 고품질 이미지를 생성하는 뛰어난 능력을 보여주었습니다. 그러나 프롬프트-이미지 정렬을 보장하는 것은 여전히 상당한 도전입니다. 즉, 프롬프트 의미와 충실히 일치하는 이미지를 생성하는 것입니다. 최근 연구들은 잠재 코드를 최적화하여 충실성을 향상시키려고 시도했으나, 이는 잠재 코드가 분포를 벗어나 현실적이지 않은 이미지를 생성할 수 있다는 잠재적 문제가 있습니다. 본 논문에서는 FRAP를 제안합니다. FRAP는 생성된 이미지의 프롬프트-이미지 정렬과 진위성을 향상시키기 위해 토큰별 프롬프트 가중치를 적응적으로 조정하는 간단하면서도 효과적인 방법입니다. 우리는 온라인 알고리즘을 설계하여 각 토큰의 가중치 계수를 적응적으로 업데이트하며, 이는 객체 존재와 객체-수식어 쌍의 결합을 촉진하는 통합 목적 함수를 최소화함으로써 달성됩니다. 체계적인 평가를 통해 FRAP가 복잡한 데이터셋의 프롬프트에 대해 상당히 높은 프롬프트-이미지 정렬을 달성하면서, 최근의 잠재 코드 최적화 방법과 비교하여 평균 대기 시간이 낮다는 것을 보여줍니다. 예를 들어, COCO-Subject 데이터셋에서 D&B보다 4초 빠르게 작동합니다. 더불어 시각적 비교와 CLIP-IQA-Real 메트릭을 통한 평가를 통해 FRAP가 프롬프트-이미지 정렬을 향상시키는 뿐만 아니라 현실적인 외관을 가진 더 현실적인 이미지를 생성한다는 것을 보여줍니다. 또한 FRAP를 프롬프트 재작성 LLM과 결합하여 그들의 저하된 프롬프트-이미지 정렬을 복구하는 것을 탐구하였으며, 프롬프트-이미지 정렬과 이미지 품질 모두에서 개선이 있음을 관찰하였습니다.
English
Text-to-image (T2I) diffusion models have demonstrated impressive capabilities in generating high-quality images given a text prompt. However, ensuring the prompt-image alignment remains a considerable challenge, i.e., generating images that faithfully align with the prompt's semantics. Recent works attempt to improve the faithfulness by optimizing the latent code, which potentially could cause the latent code to go out-of-distribution and thus produce unrealistic images. In this paper, we propose FRAP, a simple, yet effective approach based on adaptively adjusting the per-token prompt weights to improve prompt-image alignment and authenticity of the generated images. We design an online algorithm to adaptively update each token's weight coefficient, which is achieved by minimizing a unified objective function that encourages object presence and the binding of object-modifier pairs. Through extensive evaluations, we show FRAP generates images with significantly higher prompt-image alignment to prompts from complex datasets, while having a lower average latency compared to recent latent code optimization methods, e.g., 4 seconds faster than D&B on the COCO-Subject dataset. Furthermore, through visual comparisons and evaluation on the CLIP-IQA-Real metric, we show that FRAP not only improves prompt-image alignment but also generates more authentic images with realistic appearances. We also explore combining FRAP with prompt rewriting LLM to recover their degraded prompt-image alignment, where we observe improvements in both prompt-image alignment and image quality.

Summary

AI-Generated Summary

PDF72November 16, 2024