ComposeAnything: Prioridades de Objetos Compuestos para la Generación de Imágenes a partir de Texto
ComposeAnything: Composite Object Priors for Text-to-Image Generation
May 30, 2025
Autores: Zeeshan Khan, Shizhe Chen, Cordelia Schmid
cs.AI
Resumen
La generación de imágenes a partir de texto que involucra arreglos de objetos complejos y novedosos sigue siendo un desafío significativo para los modelos actuales de texto a imagen (T2I). Aunque los métodos previos basados en diseños mejoran los arreglos de objetos utilizando restricciones espaciales con diseños 2D, a menudo tienen dificultades para capturar el posicionamiento 3D y sacrifican la calidad y coherencia. En este trabajo, presentamos ComposeAnything, un marco novedoso para mejorar la generación de imágenes composicionales sin necesidad de reentrenar los modelos T2I existentes. Nuestro enfoque primero aprovecha las capacidades de razonamiento de cadena de pensamiento de los LLM para producir diseños semánticos 2.5D a partir de texto, que consisten en cuadros delimitadores 2D de objetos enriquecidos con información de profundidad y descripciones detalladas. Basándonos en este diseño, generamos un compuesto grueso de objetos consciente del espacio y la profundidad que captura la composición deseada, sirviendo como un previo fuerte e interpretable que reemplaza la inicialización de ruido estocástico en los modelos T2I basados en difusión. Este previo guía el proceso de eliminación de ruido mediante el refuerzo de previos de objetos y la eliminación de ruido controlada espacialmente, permitiendo la generación fluida de objetos composicionales y fondos coherentes, al mismo tiempo que permite el refinamiento de previos inexactos. ComposeAnything supera a los métodos más avanzados en los benchmarks T2I-CompBench y NSR-1K para prompts con arreglos espaciales 2D/3D, altos recuentos de objetos y composiciones surrealistas. Las evaluaciones humanas demuestran además que nuestro modelo genera imágenes de alta calidad con composiciones que reflejan fielmente el texto.
English
Generating images from text involving complex and novel object arrangements
remains a significant challenge for current text-to-image (T2I) models.
Although prior layout-based methods improve object arrangements using spatial
constraints with 2D layouts, they often struggle to capture 3D positioning and
sacrifice quality and coherence. In this work, we introduce ComposeAnything, a
novel framework for improving compositional image generation without retraining
existing T2I models. Our approach first leverages the chain-of-thought
reasoning abilities of LLMs to produce 2.5D semantic layouts from text,
consisting of 2D object bounding boxes enriched with depth information and
detailed captions. Based on this layout, we generate a spatial and depth aware
coarse composite of objects that captures the intended composition, serving as
a strong and interpretable prior that replaces stochastic noise initialization
in diffusion-based T2I models. This prior guides the denoising process through
object prior reinforcement and spatial-controlled denoising, enabling seamless
generation of compositional objects and coherent backgrounds, while allowing
refinement of inaccurate priors. ComposeAnything outperforms state-of-the-art
methods on the T2I-CompBench and NSR-1K benchmarks for prompts with 2D/3D
spatial arrangements, high object counts, and surreal compositions. Human
evaluations further demonstrate that our model generates high-quality images
with compositions that faithfully reflect the text.