ChatPaper.aiChatPaper

Add-it: Вставка объектов в изображения без обучения с использованием предварительно обученных моделей диффузии

Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models

November 11, 2024
Авторы: Yoad Tewel, Rinon Gal, Dvir Samuel Yuval Atzmon, Lior Wolf, Gal Chechik
cs.AI

Аннотация

Добавление объекта на изображения на основе текстовых инструкций является сложной задачей в семантическом редактировании изображений, требующей баланса между сохранением исходной сцены и плавным интегрированием нового объекта в подходящее место. Несмотря на значительные усилия, существующие модели часто сталкиваются с этим балансом, особенно с поиском естественного местоположения для добавления объекта в сложных сценах. Мы представляем Add-it, подход без обучения, который расширяет механизмы внимания моделей диффузии для интеграции информации из трех ключевых источников: изображения сцены, текстовой подсказки и сгенерированного изображения. Наш взвешенный механизм расширенного внимания поддерживает структурную согласованность и мелкие детали, обеспечивая естественное размещение объекта. Без специфической настройки под задачу, Add-it достигает лучших результатов как на реальных, так и на сгенерированных бенчмарках по вставке изображений, включая наш новый "Бенчмарк по возможностям добавления" для оценки правдоподобности размещения объекта, превосходя надзорные методы. Оценки людей показывают, что Add-it предпочтителен в более чем 80% случаев, и также демонстрирует улучшения в различных автоматизированных метриках.
English
Adding Object into images based on text instructions is a challenging task in semantic image editing, requiring a balance between preserving the original scene and seamlessly integrating the new object in a fitting location. Despite extensive efforts, existing models often struggle with this balance, particularly with finding a natural location for adding an object in complex scenes. We introduce Add-it, a training-free approach that extends diffusion models' attention mechanisms to incorporate information from three key sources: the scene image, the text prompt, and the generated image itself. Our weighted extended-attention mechanism maintains structural consistency and fine details while ensuring natural object placement. Without task-specific fine-tuning, Add-it achieves state-of-the-art results on both real and generated image insertion benchmarks, including our newly constructed "Additing Affordance Benchmark" for evaluating object placement plausibility, outperforming supervised methods. Human evaluations show that Add-it is preferred in over 80% of cases, and it also demonstrates improvements in various automated metrics.

Summary

AI-Generated Summary

PDF676November 12, 2024