Condizionamento zero-shot del layout spaziale per modelli di diffusione testo-immagine
Zero-shot spatial layout conditioning for text-to-image diffusion models
June 23, 2023
Autori: Guillaume Couairon, Marlène Careil, Matthieu Cord, Stéphane Lathuilière, Jakob Verbeek
cs.AI
Abstract
I modelli di diffusione testo-immagine su larga scala hanno migliorato significativamente lo stato dell'arte nella modellazione generativa di immagini, offrendo un'interfaccia utente intuitiva e potente per guidare il processo di generazione delle immagini. Esprimere vincoli spaziali, ad esempio per posizionare oggetti specifici in determinate posizioni, risulta complesso utilizzando il testo; inoltre, gli attuali modelli di generazione di immagini basati su testo non sono in grado di seguire con precisione tali istruzioni. In questo articolo consideriamo la generazione di immagini a partire da testo associato a segmenti sulla tela dell'immagine, che combina un'interfaccia in linguaggio naturale intuitiva con un controllo spaziale preciso sul contenuto generato. Proponiamo ZestGuide, un approccio di guida alla segmentazione zero-shot che può essere integrato in modelli di diffusione testo-immagine pre-addestrati, senza richiedere ulteriore training. Questo metodo sfrutta mappe di segmentazione implicite che possono essere estratte dai livelli di cross-attention, utilizzandole per allineare la generazione con le maschere di input. I nostri risultati sperimentali combinano un'elevata qualità dell'immagine con un allineamento accurato del contenuto generato rispetto alle segmentazioni di input, migliorando rispetto ai lavori precedenti sia quantitativamente che qualitativamente, inclusi i metodi che richiedono il training su immagini con segmentazioni corrispondenti. Rispetto a Paint with Words, il precedente stato dell'arte nella generazione di immagini con condizionamento zero-shot sulla segmentazione, otteniamo un miglioramento di 5-10 punti mIoU sul dataset COCO con punteggi FID simili.
English
Large-scale text-to-image diffusion models have significantly improved the
state of the art in generative image modelling and allow for an intuitive and
powerful user interface to drive the image generation process. Expressing
spatial constraints, e.g. to position specific objects in particular locations,
is cumbersome using text; and current text-based image generation models are
not able to accurately follow such instructions. In this paper we consider
image generation from text associated with segments on the image canvas, which
combines an intuitive natural language interface with precise spatial control
over the generated content. We propose ZestGuide, a zero-shot segmentation
guidance approach that can be plugged into pre-trained text-to-image diffusion
models, and does not require any additional training. It leverages implicit
segmentation maps that can be extracted from cross-attention layers, and uses
them to align the generation with input masks. Our experimental results combine
high image quality with accurate alignment of generated content with input
segmentations, and improve over prior work both quantitatively and
qualitatively, including methods that require training on images with
corresponding segmentations. Compared to Paint with Words, the previous
state-of-the art in image generation with zero-shot segmentation conditioning,
we improve by 5 to 10 mIoU points on the COCO dataset with similar FID scores.