ROICtrl: 시각 생성을 위한 인스턴스 제어 강화ROICtrl: Boosting Instance Control for Visual Generation
자연어는 종종 여러 인스턴스에 위치 및 속성 정보를 정확하게 연관시키기 어려워서 현재의 텍스트 기반 시각 생성 모델이 주로 몇 가지 주요 인스턴스만 포함하는 간단한 구성물로 제한됩니다. 이 한계를 극복하기 위해 본 연구는 확산 모델을 개선하여 각 인스턴스가 바운딩 박스와 자유 형식의 캡션과 함께 제어되는 지역 인스턴스 제어를 도입합니다. 이 분야의 이전 방법은 일반적으로 암시적 위치 인코딩이나 명시적 주의 마스크를 사용하여 관심 영역(ROIs)을 분리하는데 의존하는데, 이는 부정확한 좌표 주입 또는 대규모 계산 오버헤드로 이어집니다. 물체 탐지에서 ROI-Align에서 영감을 받아 ROI-Unpool이라는 보완적 작업을 소개합니다. ROI-Align과 ROI-Unpool을 함께 사용하면 시각 생성을 위한 고해상도 특성 맵에서 명시적이고 효율적이며 정확한 ROI 조작이 가능해집니다. ROI-Unpool을 기반으로, 사전 학습된 확산 모델에 대한 정확한 지역 인스턴스 제어를 가능하게 하는 ROICtrl을 제안합니다. ROICtrl은 커뮤니티에서 세밀하게 조정된 확산 모델뿐만 아니라 기존의 공간 기반 애드온(ControlNet, T2I-Adapter) 및 임베딩 기반 애드온(IP-Adapter, ED-LoRA)과도 호환되어 다중 인스턴스 생성에 대한 응용을 확장합니다. 실험 결과 ROICtrl이 지역 인스턴스 제어에서 우수한 성능을 달성하면서 계산 비용을 크게 줄였음이 입증되었습니다.