ComposeAnything: Samengestelde Objectprioriteiten voor Tekst-naar-Beeld Generatie
ComposeAnything: Composite Object Priors for Text-to-Image Generation
May 30, 2025
Auteurs: Zeeshan Khan, Shizhe Chen, Cordelia Schmid
cs.AI
Samenvatting
Het genereren van afbeeldingen uit tekst die complexe en nieuwe objectarrangementen bevatten, blijft een aanzienlijke uitdaging voor huidige tekst-naar-afbeelding (T2I) modellen. Hoewel eerdere op lay-out gebaseerde methoden objectarrangementen verbeteren door gebruik te maken van ruimtelijke beperkingen met 2D-lay-outs, hebben ze vaak moeite met het vastleggen van 3D-positionering en gaan ze ten koste van kwaliteit en samenhang. In dit werk introduceren we ComposeAnything, een nieuw raamwerk voor het verbeteren van compositorische afbeeldingsgeneratie zonder bestaande T2I-modellen opnieuw te trainen. Onze aanpak maakt eerst gebruik van de keten-van-gedachte redeneervaardigheden van LLM's om 2.5D semantische lay-outs uit tekst te produceren, bestaande uit 2D objectbegrenzingsvakken verrijkt met diepte-informatie en gedetailleerde bijschriften. Op basis van deze lay-out genereren we een ruimtelijk en diepte-bewust grof composiet van objecten dat de beoogde compositie vastlegt, wat dient als een sterk en interpreteerbaar voorafgaand dat de stochastische ruisinitialisatie in op diffusie gebaseerde T2I-modellen vervangt. Dit voorafgaande begeleidt het denoisingsproces door objectpriorversterking en ruimtelijk gecontroleerde denoising, waardoor naadloze generatie van compositorische objecten en samenhangende achtergronden mogelijk wordt, terwijl het verfijning van onnauwkeurige priors toestaat. ComposeAnything overtreft state-of-the-art methoden op de T2I-CompBench en NSR-1K benchmarks voor prompts met 2D/3D ruimtelijke arrangementen, hoge objectaantallen en surrealistische composities. Menselijke evaluaties tonen verder aan dat ons model hoogwaardige afbeeldingen genereert met composities die de tekst trouw weerspiegelen.
English
Generating images from text involving complex and novel object arrangements
remains a significant challenge for current text-to-image (T2I) models.
Although prior layout-based methods improve object arrangements using spatial
constraints with 2D layouts, they often struggle to capture 3D positioning and
sacrifice quality and coherence. In this work, we introduce ComposeAnything, a
novel framework for improving compositional image generation without retraining
existing T2I models. Our approach first leverages the chain-of-thought
reasoning abilities of LLMs to produce 2.5D semantic layouts from text,
consisting of 2D object bounding boxes enriched with depth information and
detailed captions. Based on this layout, we generate a spatial and depth aware
coarse composite of objects that captures the intended composition, serving as
a strong and interpretable prior that replaces stochastic noise initialization
in diffusion-based T2I models. This prior guides the denoising process through
object prior reinforcement and spatial-controlled denoising, enabling seamless
generation of compositional objects and coherent backgrounds, while allowing
refinement of inaccurate priors. ComposeAnything outperforms state-of-the-art
methods on the T2I-CompBench and NSR-1K benchmarks for prompts with 2D/3D
spatial arrangements, high object counts, and surreal compositions. Human
evaluations further demonstrate that our model generates high-quality images
with compositions that faithfully reflect the text.