Add-it : Insertion d'objets sans entraînement dans les images avec des modèles de diffusion pré-entraînésAdd-it: Training-Free Object Insertion in Images With Pretrained
Diffusion Models
Intégrer des objets dans des images en se basant sur des instructions textuelles est une tâche complexe en édition d'images sémantique, nécessitant un équilibre entre la préservation de la scène originale et l'intégration harmonieuse du nouvel objet à un emplacement approprié. Malgré des efforts considérables, les modèles existants ont souvent du mal à trouver cet équilibre, en particulier pour trouver un emplacement naturel pour ajouter un objet dans des scènes complexes. Nous présentons Add-it, une approche sans entraînement qui étend les mécanismes d'attention des modèles de diffusion pour incorporer des informations provenant de trois sources clés : l'image de la scène, l'indication textuelle et l'image générée elle-même. Notre mécanisme d'attention étendu pondéré maintient la cohérence structurelle et les détails fins tout en garantissant un placement naturel de l'objet. Sans un accordage fin spécifique à la tâche, Add-it obtient des résultats de pointe à la fois sur des benchmarks d'insertion d'images réelles et générées, y compris notre nouveau "Banc d'essai d'ajout d'objets" pour évaluer la plausibilité du placement des objets, surpassant les méthodes supervisées. Les évaluations humaines montrent qu'Add-it est préféré dans plus de 80 % des cas, et il démontre également des améliorations dans diverses mesures automatisées.