ComposeAnything: Zusammengesetzte Objekt-Priors für die Text-zu-Bild-Generierung
ComposeAnything: Composite Object Priors for Text-to-Image Generation
May 30, 2025
Autoren: Zeeshan Khan, Shizhe Chen, Cordelia Schmid
cs.AI
Zusammenfassung
Die Erzeugung von Bildern aus Texten, die komplexe und neuartige Objektanordnungen beinhalten, bleibt eine erhebliche Herausforderung für aktuelle Text-zu-Bild (T2I)-Modelle. Obwohl frühere layoutbasierte Methoden die Objektanordnungen mithilfe räumlicher Einschränkungen mit 2D-Layouts verbessern, haben sie oft Schwierigkeiten, die 3D-Positionierung zu erfassen, und opfern dabei Qualität und Kohärenz. In dieser Arbeit stellen wir ComposeAnything vor, ein neuartiges Framework zur Verbesserung der kompositionellen Bildgenerierung, ohne bestehende T2I-Modelle neu trainieren zu müssen. Unser Ansatz nutzt zunächst die Chain-of-Thought-Fähigkeiten von LLMs, um 2,5D-semantische Layouts aus Texten zu erzeugen, die aus 2D-Objektbegrenzungsrahmen mit Tiefeninformationen und detaillierten Beschreibungen bestehen. Basierend auf diesem Layout generieren wir eine räumlich und tiefenbewusste grobe Zusammensetzung von Objekten, die die beabsichtigte Komposition einfängt und als starke und interpretierbare Prior dient, die die stochastische Rauschinitialisierung in diffusionsbasierten T2I-Modellen ersetzt. Diese Prior leitet den Denoising-Prozess durch Objekt-Prior-Verstärkung und räumlich gesteuertes Denoising an, wodurch die nahtlose Erzeugung kompositioneller Objekte und kohärenter Hintergründe ermöglicht wird, während gleichzeitig ungenaue Priors verfeinert werden können. ComposeAnything übertrifft state-of-the-art Methoden auf den Benchmarks T2I-CompBench und NSR-1K bei Prompts mit 2D/3D-räumlichen Anordnungen, hohen Objektanzahlen und surrealen Kompositionen. Menschliche Bewertungen zeigen weiterhin, dass unser Modell hochwertige Bilder mit Kompositionen erzeugt, die den Text treu widerspiegeln.
English
Generating images from text involving complex and novel object arrangements
remains a significant challenge for current text-to-image (T2I) models.
Although prior layout-based methods improve object arrangements using spatial
constraints with 2D layouts, they often struggle to capture 3D positioning and
sacrifice quality and coherence. In this work, we introduce ComposeAnything, a
novel framework for improving compositional image generation without retraining
existing T2I models. Our approach first leverages the chain-of-thought
reasoning abilities of LLMs to produce 2.5D semantic layouts from text,
consisting of 2D object bounding boxes enriched with depth information and
detailed captions. Based on this layout, we generate a spatial and depth aware
coarse composite of objects that captures the intended composition, serving as
a strong and interpretable prior that replaces stochastic noise initialization
in diffusion-based T2I models. This prior guides the denoising process through
object prior reinforcement and spatial-controlled denoising, enabling seamless
generation of compositional objects and coherent backgrounds, while allowing
refinement of inaccurate priors. ComposeAnything outperforms state-of-the-art
methods on the T2I-CompBench and NSR-1K benchmarks for prompts with 2D/3D
spatial arrangements, high object counts, and surreal compositions. Human
evaluations further demonstrate that our model generates high-quality images
with compositions that faithfully reflect the text.