자기회귀적 이미지 생성을 위한 의미론적으로 인식된 순서의 정제
Distilling semantically aware orders for autoregressive image generation
April 23, 2025
저자: Rishav Pramanik, Antoine Poupon, Juan A. Rodriguez, Masih Aminbeidokhti, David Vazquez, Christopher Pal, Zhaozheng Yin, Marco Pedersoli
cs.AI
초록
자기회귀적 패치 기반 이미지 생성은 최근 이미지 품질과 확장성 측면에서 경쟁력 있는 결과를 보여주고 있습니다. 또한 비전-언어 모델 내에서 쉽게 통합 및 확장될 수 있습니다. 그러나 자기회귀 모델은 패치 생성을 위해 정의된 순서가 필요합니다. 텍스트 생성의 경우 단어의 배열에 따른 자연스러운 순서가 있지만, 이미지 생성에는 본질적인 생성 순서가 존재하지 않습니다. 전통적으로, 래스터 스캔 순서(좌상단에서 우하단으로)가 자기회귀적 이미지 생성 모델을 안내해 왔습니다. 본 논문에서는 이러한 순서가 최적이 아니라고 주장합니다. 왜냐하면 이미지 내용의 인과 관계를 존중하지 못하기 때문입니다. 예를 들어, 일몰에 대한 시각적 설명을 조건으로 할 때, 자기회귀 모델은 구름을 태양보다 먼저 생성할 수 있는데, 사실 구름의 색상은 태양의 색상에 의존해야 하며 그 반대가 되어서는 안 됩니다. 본 연구에서는 먼저 임의의 순서로 패치를 생성하도록 모델을 훈련시켜 생성 과정에서 각 패치의 내용과 위치(순서)를 추론할 수 있음을 보여줍니다. 둘째, 이러한 추출된 순서를 사용하여 임의 순서 모델을 미세 조정하여 더 나은 품질의 이미지를 생성합니다. 실험을 통해 우리는 이 새로운 생성 방법이 기존의 래스터 스캔 접근법보다 더 나은 이미지를 생성하며, 유사한 훈련 비용과 추가 주석 없이도 가능함을 두 데이터셋에서 입증합니다.
English
Autoregressive patch-based image generation has recently shown competitive
results in terms of image quality and scalability. It can also be easily
integrated and scaled within Vision-Language models. Nevertheless,
autoregressive models require a defined order for patch generation. While a
natural order based on the dictation of the words makes sense for text
generation, there is no inherent generation order that exists for image
generation. Traditionally, a raster-scan order (from top-left to bottom-right)
guides autoregressive image generation models. In this paper, we argue that
this order is suboptimal, as it fails to respect the causality of the image
content: for instance, when conditioned on a visual description of a sunset, an
autoregressive model may generate clouds before the sun, even though the color
of clouds should depend on the color of the sun and not the inverse. In this
work, we show that first by training a model to generate patches in
any-given-order, we can infer both the content and the location (order) of each
patch during generation. Secondly, we use these extracted orders to finetune
the any-given-order model to produce better-quality images. Through our
experiments, we show on two datasets that this new generation method produces
better images than the traditional raster-scan approach, with similar training
costs and no extra annotations.Summary
AI-Generated Summary