ComposeAnything: Prioridades de Objetos Compostos para Geração de Imagens a partir de Texto
ComposeAnything: Composite Object Priors for Text-to-Image Generation
May 30, 2025
Autores: Zeeshan Khan, Shizhe Chen, Cordelia Schmid
cs.AI
Resumo
Gerar imagens a partir de textos que envolvem arranjos complexos e inovadores de objetos continua sendo um desafio significativo para os modelos atuais de texto para imagem (T2I). Embora métodos anteriores baseados em layout melhorem os arranjos de objetos utilizando restrições espaciais com layouts 2D, eles frequentemente têm dificuldade em capturar o posicionamento 3D e sacrificam a qualidade e a coerência. Neste trabalho, apresentamos o ComposeAnything, uma nova estrutura para melhorar a geração de imagens composicionais sem a necessidade de retreinar modelos T2I existentes. Nossa abordagem primeiro aproveita as habilidades de raciocínio em cadeia de pensamento (chain-of-thought) de LLMs para produzir layouts semânticos 2.5D a partir de texto, consistindo em caixas delimitadoras 2D de objetos enriquecidas com informações de profundidade e legendas detalhadas. Com base nesse layout, geramos uma composição grosseira de objetos com consciência espacial e de profundidade que captura a composição pretendida, servindo como um prior forte e interpretável que substitui a inicialização de ruído estocástico em modelos T2I baseados em difusão. Esse prior guia o processo de remoção de ruído através do reforço de prior de objetos e da remoção de ruído controlada espacialmente, permitindo a geração contínua de objetos composicionais e fundos coerentes, ao mesmo tempo que permite o refinamento de priors imprecisos. O ComposeAnything supera os métodos state-of-the-art nos benchmarks T2I-CompBench e NSR-1K para prompts com arranjos espaciais 2D/3D, alto número de objetos e composições surreais. Avaliações humanas demonstram ainda que nosso modelo gera imagens de alta qualidade com composições que refletem fielmente o texto.
English
Generating images from text involving complex and novel object arrangements
remains a significant challenge for current text-to-image (T2I) models.
Although prior layout-based methods improve object arrangements using spatial
constraints with 2D layouts, they often struggle to capture 3D positioning and
sacrifice quality and coherence. In this work, we introduce ComposeAnything, a
novel framework for improving compositional image generation without retraining
existing T2I models. Our approach first leverages the chain-of-thought
reasoning abilities of LLMs to produce 2.5D semantic layouts from text,
consisting of 2D object bounding boxes enriched with depth information and
detailed captions. Based on this layout, we generate a spatial and depth aware
coarse composite of objects that captures the intended composition, serving as
a strong and interpretable prior that replaces stochastic noise initialization
in diffusion-based T2I models. This prior guides the denoising process through
object prior reinforcement and spatial-controlled denoising, enabling seamless
generation of compositional objects and coherent backgrounds, while allowing
refinement of inaccurate priors. ComposeAnything outperforms state-of-the-art
methods on the T2I-CompBench and NSR-1K benchmarks for prompts with 2D/3D
spatial arrangements, high object counts, and surreal compositions. Human
evaluations further demonstrate that our model generates high-quality images
with compositions that faithfully reflect the text.