ChatPaper.aiChatPaper

ComposeAnything : Priorités d'objets composites pour la génération d'images à partir de texte

ComposeAnything: Composite Object Priors for Text-to-Image Generation

May 30, 2025
Auteurs: Zeeshan Khan, Shizhe Chen, Cordelia Schmid
cs.AI

Résumé

La génération d'images à partir de textes impliquant des arrangements d'objets complexes et novateurs reste un défi majeur pour les modèles actuels de texte-à-image (T2I). Bien que les méthodes antérieures basées sur des layouts améliorent les arrangements d'objets en utilisant des contraintes spatiales avec des layouts 2D, elles peinent souvent à capturer le positionnement en 3D et sacrifient la qualité et la cohérence. Dans ce travail, nous présentons ComposeAnything, un nouveau cadre pour améliorer la génération d'images compositionnelles sans réentraîner les modèles T2I existants. Notre approche exploite d'abord les capacités de raisonnement en chaîne de pensée des LLM pour produire des layouts sémantiques 2.5D à partir de texte, comprenant des boîtes englobantes 2D enrichies d'informations de profondeur et de légendes détaillées. Sur la base de ce layout, nous générons un composite grossier spatialement et en profondeur des objets qui capture la composition souhaitée, servant de prior fort et interprétable qui remplace l'initialisation par bruit stochastique dans les modèles T2I basés sur la diffusion. Ce prior guide le processus de débruîtage à travers le renforcement des priors d'objets et le débruîtage contrôlé spatialement, permettant la génération fluide d'objets compositionnels et d'arrière-plans cohérents, tout en permettant l'affinement des priors inexacts. ComposeAnything surpasse les méthodes de pointe sur les benchmarks T2I-CompBench et NSR-1K pour des prompts avec des arrangements spatiaux 2D/3D, un nombre élevé d'objets et des compositions surréalistes. Les évaluations humaines démontrent en outre que notre modèle génère des images de haute qualité avec des compositions qui reflètent fidèlement le texte.
English
Generating images from text involving complex and novel object arrangements remains a significant challenge for current text-to-image (T2I) models. Although prior layout-based methods improve object arrangements using spatial constraints with 2D layouts, they often struggle to capture 3D positioning and sacrifice quality and coherence. In this work, we introduce ComposeAnything, a novel framework for improving compositional image generation without retraining existing T2I models. Our approach first leverages the chain-of-thought reasoning abilities of LLMs to produce 2.5D semantic layouts from text, consisting of 2D object bounding boxes enriched with depth information and detailed captions. Based on this layout, we generate a spatial and depth aware coarse composite of objects that captures the intended composition, serving as a strong and interpretable prior that replaces stochastic noise initialization in diffusion-based T2I models. This prior guides the denoising process through object prior reinforcement and spatial-controlled denoising, enabling seamless generation of compositional objects and coherent backgrounds, while allowing refinement of inaccurate priors. ComposeAnything outperforms state-of-the-art methods on the T2I-CompBench and NSR-1K benchmarks for prompts with 2D/3D spatial arrangements, high object counts, and surreal compositions. Human evaluations further demonstrate that our model generates high-quality images with compositions that faithfully reflect the text.
PDF43June 3, 2025