ChatPaper.aiChatPaper

Idea2Img: GPT-4V(ision)를 활용한 반복적 자기 개선을 통한 자동 이미지 설계 및 생성

Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation

October 12, 2023
저자: Zhengyuan Yang, Jianfeng Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang
cs.AI

초록

"아이디어에서 이미지로(Idea to Image)"라는 시스템을 소개합니다. 이 시스템은 GPT-4V(ision)를 활용한 다중모달 반복적 자기 개선을 통해 자동 이미지 설계 및 생성을 가능하게 합니다. 인간은 반복적인 탐색을 통해 다양한 텍스트-이미지(T2I) 모델의 특성을 빠르게 파악할 수 있습니다. 이를 통해 사용자는 높은 수준의 생성 아이디어를 효과적인 T2I 프롬프트로 효율적으로 변환하여 우수한 이미지를 생성할 수 있습니다. 우리는 대규모 다중모달 모델(LMM) 기반 시스템이 미지의 모델이나 환경을 자기 개선 시도를 통해 탐색할 수 있는 유사한 다중모달 자기 개선 능력을 개발할 수 있는지 연구합니다. Idea2Img는 탐색된 T2I 모델의 특성에 대한 기억을 바탕으로 수정된 T2I 프롬프트를 순환적으로 생성하고, 초안 이미지를 합성하며, 프롬프트 수정을 위한 방향성 피드백을 제공합니다. 이 반복적 자기 개선은 Idea2Img가 일반 T2I 모델에 비해 다양한 이점을 가져다줍니다. 특히, Idea2Img는 이미지-텍스트 시퀀스가 교차된 입력 아이디어를 처리할 수 있고, 설계 지침이 포함된 아이디어를 따를 수 있으며, 더 나은 의미론적 및 시각적 품질의 이미지를 생성할 수 있습니다. 사용자 선호도 연구는 자동 이미지 설계 및 생성에서 다중모달 반복적 자기 개선의 효용성을 검증합니다.
English
We introduce ``Idea to Image,'' a system that enables multimodal iterative self-refinement with GPT-4V(ision) for automatic image design and generation. Humans can quickly identify the characteristics of different text-to-image (T2I) models via iterative explorations. This enables them to efficiently convert their high-level generation ideas into effective T2I prompts that can produce good images. We investigate if systems based on large multimodal models (LMMs) can develop analogous multimodal self-refinement abilities that enable exploring unknown models or environments via self-refining tries. Idea2Img cyclically generates revised T2I prompts to synthesize draft images, and provides directional feedback for prompt revision, both conditioned on its memory of the probed T2I model's characteristics. The iterative self-refinement brings Idea2Img various advantages over vanilla T2I models. Notably, Idea2Img can process input ideas with interleaved image-text sequences, follow ideas with design instructions, and generate images of better semantic and visual qualities. The user preference study validates the efficacy of multimodal iterative self-refinement on automatic image design and generation.
PDF186December 15, 2024