ChatPaper.aiChatPaper

ComposeAnything: Priorità sugli Oggetti Compositi per la Generazione di Immagini da Testo

ComposeAnything: Composite Object Priors for Text-to-Image Generation

May 30, 2025
Autori: Zeeshan Khan, Shizhe Chen, Cordelia Schmid
cs.AI

Abstract

La generazione di immagini da testo che coinvolge arrangiamenti complessi e innovativi di oggetti rimane una sfida significativa per i modelli attuali di testo-immagine (T2I). Sebbene i metodi precedenti basati su layout migliorino gli arrangiamenti degli oggetti utilizzando vincoli spaziali con layout 2D, spesso faticano a catturare il posizionamento 3D e sacrificano qualità e coerenza. In questo lavoro, introduciamo ComposeAnything, un nuovo framework per migliorare la generazione di immagini composizionali senza dover riaddestrare i modelli T2I esistenti. Il nostro approccio sfrutta prima le capacità di ragionamento a catena di pensiero dei modelli linguistici di grandi dimensioni (LLM) per produrre layout semantici 2.5D a partire dal testo, costituiti da bounding box 2D arricchiti con informazioni di profondità e didascalie dettagliate. Basandoci su questo layout, generiamo una composizione grezza di oggetti consapevole dello spazio e della profondità che cattura la composizione desiderata, servendo come un forte e interpretabile prior che sostituisce l'inizializzazione stocastica del rumore nei modelli T2I basati su diffusione. Questo prior guida il processo di denoising attraverso il rinforzo del prior degli oggetti e il denoising controllato spazialmente, consentendo la generazione senza soluzione di continuità di oggetti composizionali e sfondi coerenti, permettendo al contempo il perfezionamento di prior inaccurati. ComposeAnything supera i metodi all'avanguardia sui benchmark T2I-CompBench e NSR-1K per prompt con arrangiamenti spaziali 2D/3D, un numero elevato di oggetti e composizioni surreali. Le valutazioni umane dimostrano ulteriormente che il nostro modello genera immagini di alta qualità con composizioni che riflettono fedelmente il testo.
English
Generating images from text involving complex and novel object arrangements remains a significant challenge for current text-to-image (T2I) models. Although prior layout-based methods improve object arrangements using spatial constraints with 2D layouts, they often struggle to capture 3D positioning and sacrifice quality and coherence. In this work, we introduce ComposeAnything, a novel framework for improving compositional image generation without retraining existing T2I models. Our approach first leverages the chain-of-thought reasoning abilities of LLMs to produce 2.5D semantic layouts from text, consisting of 2D object bounding boxes enriched with depth information and detailed captions. Based on this layout, we generate a spatial and depth aware coarse composite of objects that captures the intended composition, serving as a strong and interpretable prior that replaces stochastic noise initialization in diffusion-based T2I models. This prior guides the denoising process through object prior reinforcement and spatial-controlled denoising, enabling seamless generation of compositional objects and coherent backgrounds, while allowing refinement of inaccurate priors. ComposeAnything outperforms state-of-the-art methods on the T2I-CompBench and NSR-1K benchmarks for prompts with 2D/3D spatial arrangements, high object counts, and surreal compositions. Human evaluations further demonstrate that our model generates high-quality images with compositions that faithfully reflect the text.
PDF53June 3, 2025