MosaicFusion: 대규모 어휘 인스턴스 분할을 위한 데이터 증강기로서의 확산 모델
MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation
September 22, 2023
저자: Jiahao Xie, Wei Li, Xiangtai Li, Ziwei Liu, Yew Soon Ong, Chen Change Loy
cs.AI
초록
우리는 대규모 어휘 인스턴스 세분화를 위한 간단하지만 효과적인 확산 기반 데이터 증강 접근법인 MosaicFusion을 소개한다. 우리의 방법은 학습이 필요 없으며 어떤 레이블 감독에도 의존하지 않는다. 두 가지 핵심 설계를 통해 우리는 기성 텍스트-이미지 확산 모델을 객체 인스턴스와 마스크 주석을 위한 유용한 데이터셋 생성기로 활용할 수 있다. 첫째, 이미지 캔버스를 여러 영역으로 나누고 서로 다른 텍스트 프롬프트를 조건으로 하여 단일 라운드의 확산 과정을 수행함으로써 여러 인스턴스를 동시에 생성한다. 둘째, 객체 프롬프트와 관련된 크로스-어텐션 맵을 여러 계층과 확산 시간 단계에 걸쳐 집계한 후 간단한 임계값 처리와 에지 인식 정제 처리를 통해 해당 인스턴스 마스크를 얻는다. 별다른 장식 없이, 우리의 MosaicFusion은 희귀 및 새로운 카테고리 모두를 위한 상당량의 합성 레이블 데이터를 생성할 수 있다. 도전적인 LVIS 롱테일 및 오픈-보캐블러리 벤치마크에서의 실험 결과는 MosaicFusion이 기존 인스턴스 세분화 모델의 성능을 특히 희귀 및 새로운 카테고리에서 크게 향상시킬 수 있음을 보여준다. 코드는 https://github.com/Jiahao000/MosaicFusion에서 공개될 예정이다.
English
We present MosaicFusion, a simple yet effective diffusion-based data
augmentation approach for large vocabulary instance segmentation. Our method is
training-free and does not rely on any label supervision. Two key designs
enable us to employ an off-the-shelf text-to-image diffusion model as a useful
dataset generator for object instances and mask annotations. First, we divide
an image canvas into several regions and perform a single round of diffusion
process to generate multiple instances simultaneously, conditioning on
different text prompts. Second, we obtain corresponding instance masks by
aggregating cross-attention maps associated with object prompts across layers
and diffusion time steps, followed by simple thresholding and edge-aware
refinement processing. Without bells and whistles, our MosaicFusion can produce
a significant amount of synthetic labeled data for both rare and novel
categories. Experimental results on the challenging LVIS long-tailed and
open-vocabulary benchmarks demonstrate that MosaicFusion can significantly
improve the performance of existing instance segmentation models, especially
for rare and novel categories. Code will be released at
https://github.com/Jiahao000/MosaicFusion.