ChatPaper.aiChatPaper

Distilando órdenes semánticamente conscientes para la generación autoregresiva de imágenes

Distilling semantically aware orders for autoregressive image generation

April 23, 2025
Autores: Rishav Pramanik, Antoine Poupon, Juan A. Rodriguez, Masih Aminbeidokhti, David Vazquez, Christopher Pal, Zhaozheng Yin, Marco Pedersoli
cs.AI

Resumen

La generación de imágenes basada en parches autoregresivos ha demostrado recientemente resultados competitivos en términos de calidad de imagen y escalabilidad. Además, puede integrarse y escalarse fácilmente dentro de modelos de Visión-Lenguaje. Sin embargo, los modelos autoregresivos requieren un orden definido para la generación de parches. Mientras que un orden natural basado en la dictación de las palabras tiene sentido para la generación de texto, no existe un orden inherente de generación para la creación de imágenes. Tradicionalmente, un orden de escaneo en raster (de arriba a la izquierda a abajo a la derecha) guía a los modelos autoregresivos de generación de imágenes. En este artículo, argumentamos que este orden es subóptimo, ya que no respeta la causalidad del contenido de la imagen: por ejemplo, cuando se condiciona con una descripción visual de un atardecer, un modelo autoregresivo podría generar las nubes antes que el sol, a pesar de que el color de las nubes debería depender del color del sol y no al revés. En este trabajo, demostramos que, primero, al entrenar un modelo para generar parches en cualquier orden dado, podemos inferir tanto el contenido como la ubicación (orden) de cada parche durante la generación. En segundo lugar, utilizamos estos órdenes extraídos para ajustar el modelo de cualquier orden dado y producir imágenes de mejor calidad. A través de nuestros experimentos, mostramos en dos conjuntos de datos que este nuevo método de generación produce mejores imágenes que el enfoque tradicional de escaneo en raster, con costos de entrenamiento similares y sin anotaciones adicionales.
English
Autoregressive patch-based image generation has recently shown competitive results in terms of image quality and scalability. It can also be easily integrated and scaled within Vision-Language models. Nevertheless, autoregressive models require a defined order for patch generation. While a natural order based on the dictation of the words makes sense for text generation, there is no inherent generation order that exists for image generation. Traditionally, a raster-scan order (from top-left to bottom-right) guides autoregressive image generation models. In this paper, we argue that this order is suboptimal, as it fails to respect the causality of the image content: for instance, when conditioned on a visual description of a sunset, an autoregressive model may generate clouds before the sun, even though the color of clouds should depend on the color of the sun and not the inverse. In this work, we show that first by training a model to generate patches in any-given-order, we can infer both the content and the location (order) of each patch during generation. Secondly, we use these extracted orders to finetune the any-given-order model to produce better-quality images. Through our experiments, we show on two datasets that this new generation method produces better images than the traditional raster-scan approach, with similar training costs and no extra annotations.

Summary

AI-Generated Summary

PDF52April 25, 2025