ComposeAnything: Приоритеты составных объектов для генерации изображений по тексту
ComposeAnything: Composite Object Priors for Text-to-Image Generation
May 30, 2025
Авторы: Zeeshan Khan, Shizhe Chen, Cordelia Schmid
cs.AI
Аннотация
Генерация изображений из текста, включающего сложные и новые композиции объектов, остается серьезной проблемой для современных моделей преобразования текста в изображение (T2I). Хотя существующие методы, основанные на макетах, улучшают расположение объектов с использованием пространственных ограничений и 2D-макетов, они часто не справляются с учетом 3D-позиционирования и жертвуют качеством и согласованностью. В данной работе мы представляем ComposeAnything — новый фреймворк для улучшения композиционной генерации изображений без необходимости переобучения существующих T2I-моделей. Наш подход сначала использует способности крупных языковых моделей (LLM) к цепочечным рассуждениям для создания 2.5D-семантических макетов из текста, состоящих из 2D-ограничивающих рамок объектов, обогащенных информацией о глубине и детальными описаниями. На основе этого макета мы генерируем грубую композицию объектов, учитывающую пространство и глубину, которая отражает задуманную композицию и служит сильным и интерпретируемым априорным значением, заменяющим стохастическую инициализацию шума в диффузионных T2I-моделях. Этот априор направляет процесс удаления шума через усиление априорных данных объектов и пространственно-контролируемое удаление шума, что позволяет бесшовно генерировать композиционные объекты и согласованные фоны, одновременно позволяя уточнять неточные априорные данные. ComposeAnything превосходит современные методы на бенчмарках T2I-CompBench и NSR-1K для запросов с 2D/3D-пространственными композициями, большим количеством объектов и сюрреалистическими композициями. Человеческие оценки также подтверждают, что наша модель генерирует высококачественные изображения, композиции которых точно отражают текст.
English
Generating images from text involving complex and novel object arrangements
remains a significant challenge for current text-to-image (T2I) models.
Although prior layout-based methods improve object arrangements using spatial
constraints with 2D layouts, they often struggle to capture 3D positioning and
sacrifice quality and coherence. In this work, we introduce ComposeAnything, a
novel framework for improving compositional image generation without retraining
existing T2I models. Our approach first leverages the chain-of-thought
reasoning abilities of LLMs to produce 2.5D semantic layouts from text,
consisting of 2D object bounding boxes enriched with depth information and
detailed captions. Based on this layout, we generate a spatial and depth aware
coarse composite of objects that captures the intended composition, serving as
a strong and interpretable prior that replaces stochastic noise initialization
in diffusion-based T2I models. This prior guides the denoising process through
object prior reinforcement and spatial-controlled denoising, enabling seamless
generation of compositional objects and coherent backgrounds, while allowing
refinement of inaccurate priors. ComposeAnything outperforms state-of-the-art
methods on the T2I-CompBench and NSR-1K benchmarks for prompts with 2D/3D
spatial arrangements, high object counts, and surreal compositions. Human
evaluations further demonstrate that our model generates high-quality images
with compositions that faithfully reflect the text.