Add-it: Вставка объектов в изображения без обучения с использованием предварительно обученных моделей диффузииAdd-it: Training-Free Object Insertion in Images With Pretrained
Diffusion Models
Добавление объекта на изображения на основе текстовых инструкций является сложной задачей в семантическом редактировании изображений, требующей баланса между сохранением исходной сцены и плавным интегрированием нового объекта в подходящее место. Несмотря на значительные усилия, существующие модели часто сталкиваются с этим балансом, особенно с поиском естественного местоположения для добавления объекта в сложных сценах. Мы представляем Add-it, подход без обучения, который расширяет механизмы внимания моделей диффузии для интеграции информации из трех ключевых источников: изображения сцены, текстовой подсказки и сгенерированного изображения. Наш взвешенный механизм расширенного внимания поддерживает структурную согласованность и мелкие детали, обеспечивая естественное размещение объекта. Без специфической настройки под задачу, Add-it достигает лучших результатов как на реальных, так и на сгенерированных бенчмарках по вставке изображений, включая наш новый "Бенчмарк по возможностям добавления" для оценки правдоподобности размещения объекта, превосходя надзорные методы. Оценки людей показывают, что Add-it предпочтителен в более чем 80% случаев, и также демонстрирует улучшения в различных автоматизированных метриках.