Destilando ordens semanticamente conscientes para geração autoregressiva de imagens
Distilling semantically aware orders for autoregressive image generation
April 23, 2025
Autores: Rishav Pramanik, Antoine Poupon, Juan A. Rodriguez, Masih Aminbeidokhti, David Vazquez, Christopher Pal, Zhaozheng Yin, Marco Pedersoli
cs.AI
Resumo
A geração de imagens baseada em patches autoregressivos tem mostrado recentemente resultados competitivos em termos de qualidade de imagem e escalabilidade. Ela também pode ser facilmente integrada e dimensionada em modelos de Visão-Linguagem. No entanto, os modelos autoregressivos exigem uma ordem definida para a geração de patches. Embora uma ordem natural baseada na ditadura das palavras faça sentido para a geração de texto, não existe uma ordem inerente de geração para a geração de imagens. Tradicionalmente, uma ordem de varredura raster (do canto superior esquerdo para o canto inferior direito) guia os modelos de geração de imagens autoregressivos. Neste artigo, argumentamos que essa ordem é subótima, pois falha em respeitar a causalidade do conteúdo da imagem: por exemplo, ao ser condicionado por uma descrição visual de um pôr do sol, um modelo autoregressivo pode gerar nuvens antes do sol, mesmo que a cor das nuvens deva depender da cor do sol e não o contrário. Neste trabalho, mostramos que, primeiro, ao treinar um modelo para gerar patches em qualquer ordem dada, podemos inferir tanto o conteúdo quanto a localização (ordem) de cada patch durante a geração. Em segundo lugar, usamos essas ordens extraídas para ajustar o modelo de qualquer-ordem-dada para produzir imagens de melhor qualidade. Por meio de nossos experimentos, mostramos em dois conjuntos de dados que esse novo método de geração produz imagens melhores do que a abordagem tradicional de varredura raster, com custos de treinamento semelhantes e sem anotações extras.
English
Autoregressive patch-based image generation has recently shown competitive
results in terms of image quality and scalability. It can also be easily
integrated and scaled within Vision-Language models. Nevertheless,
autoregressive models require a defined order for patch generation. While a
natural order based on the dictation of the words makes sense for text
generation, there is no inherent generation order that exists for image
generation. Traditionally, a raster-scan order (from top-left to bottom-right)
guides autoregressive image generation models. In this paper, we argue that
this order is suboptimal, as it fails to respect the causality of the image
content: for instance, when conditioned on a visual description of a sunset, an
autoregressive model may generate clouds before the sun, even though the color
of clouds should depend on the color of the sun and not the inverse. In this
work, we show that first by training a model to generate patches in
any-given-order, we can infer both the content and the location (order) of each
patch during generation. Secondly, we use these extracted orders to finetune
the any-given-order model to produce better-quality images. Through our
experiments, we show on two datasets that this new generation method produces
better images than the traditional raster-scan approach, with similar training
costs and no extra annotations.Summary
AI-Generated Summary