ChatPaper.aiChatPaper

IA-T2I: 인터넷 증강 텍스트-이미지 생성

IA-T2I: Internet-Augmented Text-to-Image Generation

May 21, 2025
저자: Chuanhao Li, Jianwen Sun, Yukang Feng, Mingliang Zhai, Yifan Chang, Kaipeng Zhang
cs.AI

초록

현재의 텍스트-이미지(T2I) 생성 모델은 유망한 결과를 보여주고 있지만, 텍스트 프롬프트에 내포된 지식이 불확실한 시나리오에서는 실패하는 경우가 많습니다. 예를 들어, 2월에 출시된 T2I 모델은 4월에 개봉하는 영화의 포스터를 적절히 생성하는 데 어려움을 겪을 수 있습니다. 이는 캐릭터 디자인과 스타일이 모델에게 불확실하기 때문입니다. 이 문제를 해결하기 위해, 우리는 인터넷-증강 텍스트-이미지 생성(IA-T2I) 프레임워크를 제안하여, 참조 이미지를 제공함으로써 T2I 모델이 이러한 불확실한 지식을 명확히 이해하도록 돕습니다. 구체적으로, 주어진 텍스트 프롬프트를 기반으로 참조 이미지가 필요한지 여부를 결정하는 능동적 검색 모듈을 설계하였고, 이미지 검색 엔진이 반환한 가장 적합한 이미지를 찾아 T2I 모델을 강화하기 위한 계층적 이미지 선택 모듈을 도입하였으며, 생성된 이미지를 지속적으로 평가하고 개선하여 텍스트 프롬프트와의 충실한 일치를 보장하기 위한 자기 반성 메커니즘을 제시하였습니다. 제안된 프레임워크의 성능을 평가하기 위해, 우리는 Img-Ref-T2I라는 데이터셋을 수집하였으며, 여기에는 세 가지 유형의 불확실한 지식을 포함하는 텍스트 프롬프트가 있습니다: (1) 알려졌지만 드문 경우. (2) 알려지지 않은 경우. (3) 모호한 경우. 또한, GPT-4o가 선호도 평가를 수행하도록 복잡한 프롬프트를 신중하게 구성하였으며, 이는 인간의 선호도 평가와 유사한 평가 정확도를 보여주는 것으로 나타났습니다. 실험 결과는 우리의 프레임워크의 효과를 입증하며, 인간 평가에서 GPT-4o보다 약 30% 우수한 성능을 보였습니다.
English
Current text-to-image (T2I) generation models achieve promising results, but they fail on the scenarios where the knowledge implied in the text prompt is uncertain. For example, a T2I model released in February would struggle to generate a suitable poster for a movie premiering in April, because the character designs and styles are uncertain to the model. To solve this problem, we propose an Internet-Augmented text-to-image generation (IA-T2I) framework to compel T2I models clear about such uncertain knowledge by providing them with reference images. Specifically, an active retrieval module is designed to determine whether a reference image is needed based on the given text prompt; a hierarchical image selection module is introduced to find the most suitable image returned by an image search engine to enhance the T2I model; a self-reflection mechanism is presented to continuously evaluate and refine the generated image to ensure faithful alignment with the text prompt. To evaluate the proposed framework's performance, we collect a dataset named Img-Ref-T2I, where text prompts include three types of uncertain knowledge: (1) known but rare. (2) unknown. (3) ambiguous. Moreover, we carefully craft a complex prompt to guide GPT-4o in making preference evaluation, which has been shown to have an evaluation accuracy similar to that of human preference evaluation. Experimental results demonstrate the effectiveness of our framework, outperforming GPT-4o by about 30% in human evaluation.

Summary

AI-Generated Summary

PDF132May 22, 2025