Distillare ordini semanticamente consapevoli per la generazione autoregressiva di immagini

Abstract

La generazione di immagini basata su patch autoregressive ha recentemente dimostrato risultati competitivi in termini di qualità dell'immagine e scalabilità. Può inoltre essere facilmente integrata e scalata all'interno di modelli Vision-Language. Tuttavia, i modelli autoregressivi richiedono un ordine definito per la generazione delle patch. Mentre un ordine naturale basato sulla dettatura delle parole ha senso per la generazione di testo, non esiste un ordine di generazione intrinseco per la generazione di immagini. Tradizionalmente, un ordine a scansione raster (dall'alto a sinistra al basso a destra) guida i modelli di generazione di immagini autoregressive. In questo articolo, sosteniamo che questo ordine è subottimale, poiché non rispetta la causalità del contenuto dell'immagine: ad esempio, quando condizionato da una descrizione visiva di un tramonto, un modello autoregressivo potrebbe generare le nuvole prima del sole, anche se il colore delle nuvole dovrebbe dipendere dal colore del sole e non viceversa. In questo lavoro, dimostriamo che, prima di tutto, addestrando un modello a generare patch in un qualsiasi ordine dato, possiamo inferire sia il contenuto che la posizione (ordine) di ciascuna patch durante la generazione. In secondo luogo, utilizziamo questi ordini estratti per affinare il modello a qualsiasi ordine dato, al fine di produrre immagini di qualità superiore. Attraverso i nostri esperimenti, dimostriamo su due dataset che questo nuovo metodo di generazione produce immagini migliori rispetto all'approccio tradizionale a scansione raster, con costi di addestramento simili e senza annotazioni aggiuntive.

English

Autoregressive patch-based image generation has recently shown competitive results in terms of image quality and scalability. It can also be easily integrated and scaled within Vision-Language models. Nevertheless, autoregressive models require a defined order for patch generation. While a natural order based on the dictation of the words makes sense for text generation, there is no inherent generation order that exists for image generation. Traditionally, a raster-scan order (from top-left to bottom-right) guides autoregressive image generation models. In this paper, we argue that this order is suboptimal, as it fails to respect the causality of the image content: for instance, when conditioned on a visual description of a sunset, an autoregressive model may generate clouds before the sun, even though the color of clouds should depend on the color of the sun and not the inverse. In this work, we show that first by training a model to generate patches in any-given-order, we can infer both the content and the location (order) of each patch during generation. Secondly, we use these extracted orders to finetune the any-given-order model to produce better-quality images. Through our experiments, we show on two datasets that this new generation method produces better images than the traditional raster-scan approach, with similar training costs and no extra annotations.

Distillare ordini semanticamente consapevoli per la generazione autoregressiva di immagini

Distilling semantically aware orders for autoregressive image generation

Abstract

Support