ChatPaper.aiChatPaper

InstanceGen: 인스턴스 수준 지침을 통한 이미지 생성

InstanceGen: Image Generation with Instance-level Instructions

May 8, 2025
저자: Etai Sella, Yanir Kleiman, Hadar Averbuch-Elor
cs.AI

초록

생성 모델의 능력이 빠르게 발전하고 있음에도 불구하고, 사전 학습된 텍스트-이미지 모델은 여전히 여러 객체와 인스턴스 수준의 속성을 결합한 복잡한 프롬프트가 전달하는 의미를 포착하는 데 어려움을 겪고 있다. 이에 따라, 이러한 어려운 경우에 생성 과정을 더 잘 안내하기 위해 일반적으로 거친 경계 상자 형태의 추가적인 구조적 제약을 통합하려는 관심이 증가하고 있다. 본 연구에서는 구조적 안내의 아이디어를 한 단계 더 발전시켜, 현대의 이미지 생성 모델이 직접적으로 타당한 세밀한 구조적 초기화를 제공할 수 있다는 관찰을 바탕으로 새로운 기법을 제안한다. 우리는 이미지 기반의 구조적 안내와 대규모 언어 모델(LLM) 기반의 인스턴스 수준 지시를 결합한 기술을 제안하며, 이를 통해 객체 수, 인스턴스 수준의 속성, 그리고 인스턴스 간의 공간적 관계를 포함한 텍스트 프롬프트의 모든 부분을 준수하는 출력 이미지를 생성한다.
English
Despite rapid advancements in the capabilities of generative models, pretrained text-to-image models still struggle in capturing the semantics conveyed by complex prompts that compound multiple objects and instance-level attributes. Consequently, we are witnessing growing interests in integrating additional structural constraints, typically in the form of coarse bounding boxes, to better guide the generation process in such challenging cases. In this work, we take the idea of structural guidance a step further by making the observation that contemporary image generation models can directly provide a plausible fine-grained structural initialization. We propose a technique that couples this image-based structural guidance with LLM-based instance-level instructions, yielding output images that adhere to all parts of the text prompt, including object counts, instance-level attributes, and spatial relations between instances.

Summary

AI-Generated Summary

PDF42May 19, 2025