Add-it: 사전 훈련된 확산 모델을 사용한 이미지 내 물체 삽입 방법Add-it: Training-Free Object Insertion in Images With Pretrained
Diffusion Models
텍스트 지침에 따라 이미지에 객체를 추가하는 것은 시맨틱 이미지 편집에서의 어려운 과제로, 원본 장면을 보존하고 새로운 객체를 적절한 위치에 매끄럽게 통합하는 균형을 요구합니다. 기존 모델은 이 균형을 달성하는 데 어려움을 겪는데, 특히 복잡한 장면에 객체를 추가하는 자연스러운 위치를 찾는 데 어려움을 겪습니다. 저희는 Add-it이라는 훈련 불필요한 방법을 소개합니다. 이 방법은 확산 모델의 주의 메커니즘을 확장하여 장면 이미지, 텍스트 프롬프트, 생성된 이미지 자체의 정보를 통합합니다. 가중치가 부여된 확장된 주의 메커니즘은 구조적 일관성과 세부 사항을 유지하면서 자연스러운 객체 배치를 보장합니다. 과제별 세부 조정 없이 Add-it은 실제 및 생성된 이미지 삽입 벤치마크에서 최첨단 결과를 달성하며, 객체 배치 타당성을 평가하기 위해 새롭게 구성된 "Additing Affordance Benchmark"를 포함하여 지도 방법을 능가합니다. 인간 평가 결과, Add-it이 80% 이상의 경우 선호되며, 다양한 자동화된 측정 항목에서도 개선을 보입니다.