제대로 하기: 텍스트-이미지 모델의 공간적 일관성 개선
Getting it Right: Improving Spatial Consistency in Text-to-Image Models
April 1, 2024
저자: Agneet Chatterjee, Gabriela Ben Melech Stan, Estelle Aflalo, Sayak Paul, Dhruba Ghosh, Tejas Gokhale, Ludwig Schmidt, Hannaneh Hajishirzi, Vasudev Lal, Chitta Baral, Yezhou Yang
cs.AI
초록
현재 텍스트-이미지(T2I) 모델의 주요 단점 중 하나는 텍스트 프롬프트에 명시된 공간 관계를 충실히 따르는 이미지를 일관적으로 생성하지 못한다는 점입니다. 본 논문에서는 이러한 한계를 포괄적으로 조사하는 동시에 최첨단 성능을 달성하는 데이터셋과 방법을 개발합니다. 먼저, 현재의 시각-언어 데이터셋이 공간 관계를 충분히 잘 표현하지 못한다는 점을 발견했습니다. 이러한 병목 현상을 해결하기 위해 널리 사용되는 4개의 시각 데이터셋에서 600만 장의 이미지를 재캡션하여 최초의 공간 중심 대규모 데이터셋인 SPRIGHT를 구축했습니다. 3단계 평가 및 분석 파이프라인을 통해 SPRIGHT가 기존 데이터셋 대비 공간 관계를 훨씬 더 잘 포착한다는 것을 확인했습니다. SPRIGHT의 약 0.25%만 활용하여 공간적으로 정확한 이미지 생성에서 22%의 개선을 달성했으며, FID와 CMMD 점수도 향상시켰습니다. 둘째로, 많은 수의 객체를 포함한 이미지로 학습할 경우 공간 일관성이 크게 개선된다는 점을 발견했습니다. 특히, 500장 미만의 이미지로 미세 조정하여 T2I-CompBench에서 0.2133의 공간 점수로 최첨단 성능을 달성했습니다. 마지막으로, 일련의 통제 실험과 어블레이션을 통해 텍스트-이미지 모델의 공간 일관성에 영향을 미치는 요인에 대한 이해를 높일 수 있는 여러 발견을 문서화했습니다. 본 연구는 이 분야의 추가 연구를 촉진하기 위해 데이터셋과 모델을 공개합니다.
English
One of the key shortcomings in current text-to-image (T2I) models is their
inability to consistently generate images which faithfully follow the spatial
relationships specified in the text prompt. In this paper, we offer a
comprehensive investigation of this limitation, while also developing datasets
and methods that achieve state-of-the-art performance. First, we find that
current vision-language datasets do not represent spatial relationships well
enough; to alleviate this bottleneck, we create SPRIGHT, the first
spatially-focused, large scale dataset, by re-captioning 6 million images from
4 widely used vision datasets. Through a 3-fold evaluation and analysis
pipeline, we find that SPRIGHT largely improves upon existing datasets in
capturing spatial relationships. To demonstrate its efficacy, we leverage only
~0.25% of SPRIGHT and achieve a 22% improvement in generating spatially
accurate images while also improving the FID and CMMD scores. Secondly, we find
that training on images containing a large number of objects results in
substantial improvements in spatial consistency. Notably, we attain
state-of-the-art on T2I-CompBench with a spatial score of 0.2133, by
fine-tuning on <500 images. Finally, through a set of controlled experiments
and ablations, we document multiple findings that we believe will enhance the
understanding of factors that affect spatial consistency in text-to-image
models. We publicly release our dataset and model to foster further research in
this area.Summary
AI-Generated Summary