InstanceGen: Генерация изображений с использованием инструкций на уровне объектов
InstanceGen: Image Generation with Instance-level Instructions
May 8, 2025
Авторы: Etai Sella, Yanir Kleiman, Hadar Averbuch-Elor
cs.AI
Аннотация
Несмотря на быстрый прогресс в возможностях генеративных моделей, предобученные модели преобразования текста в изображение по-прежнему испытывают трудности с захватом семантики, передаваемой сложными запросами, которые объединяют несколько объектов и атрибуты на уровне экземпляров. В результате наблюдается растущий интерес к интеграции дополнительных структурных ограничений, обычно в виде грубых ограничивающих рамок, чтобы лучше направлять процесс генерации в таких сложных случаях. В данной работе мы развиваем идею структурного руководства, делая наблюдение, что современные модели генерации изображений могут напрямую предоставлять правдоподобную детализированную структурную инициализацию. Мы предлагаем метод, который сочетает это структурное руководство на основе изображений с инструкциями на уровне экземпляров, основанными на языковых моделях, что позволяет получать выходные изображения, соответствующие всем частям текстового запроса, включая количество объектов, атрибуты на уровне экземпляров и пространственные отношения между ними.
English
Despite rapid advancements in the capabilities of generative models,
pretrained text-to-image models still struggle in capturing the semantics
conveyed by complex prompts that compound multiple objects and instance-level
attributes. Consequently, we are witnessing growing interests in integrating
additional structural constraints, typically in the form of coarse bounding
boxes, to better guide the generation process in such challenging cases. In
this work, we take the idea of structural guidance a step further by making the
observation that contemporary image generation models can directly provide a
plausible fine-grained structural initialization. We propose a technique that
couples this image-based structural guidance with LLM-based instance-level
instructions, yielding output images that adhere to all parts of the text
prompt, including object counts, instance-level attributes, and spatial
relations between instances.