ChatPaper.aiChatPaper

Insertion d'objet conscient des affordances via une double diffusion consciente des masques

Affordance-Aware Object Insertion via Mask-Aware Dual Diffusion

December 19, 2024
Auteurs: Jixuan He, Wanhua Li, Ye Liu, Junsik Kim, Donglai Wei, Hanspeter Pfister
cs.AI

Résumé

En tant qu'opération courante d'édition d'images, la composition d'images implique l'intégration d'objets en premier plan dans des scènes d'arrière-plan. Dans cet article, nous élargissons l'application du concept d'Affordance des tâches de composition d'images centrées sur l'humain à un cadre de composition objet-scène plus général, abordant l'interaction complexe entre les objets en premier plan et les scènes d'arrière-plan. Suivant le principe de l'Affordance, nous définissons la tâche d'insertion d'objet consciente de l'affordance, qui vise à insérer de manière transparente n'importe quel objet dans n'importe quelle scène avec diverses indications de position. Pour résoudre le problème de données limitées et intégrer cette tâche, nous avons construit l'ensemble de données SAM-FB, qui contient plus de 3 millions d'exemples répartis sur plus de 3 000 catégories d'objets. De plus, nous proposons le modèle de Diffusion Double Consciente des Masques (MADD), qui utilise une architecture à double flux pour débruiter simultanément l'image RVB et le masque d'insertion. En modélisant explicitement le masque d'insertion dans le processus de diffusion, MADD facilite efficacement la notion d'affordance. Des résultats expérimentaux approfondis montrent que notre méthode surpasse les méthodes de pointe et présente de solides performances de généralisation sur des images en conditions réelles. Veuillez consulter notre code sur https://github.com/KaKituken/affordance-aware-any.
English
As a common image editing operation, image composition involves integrating foreground objects into background scenes. In this paper, we expand the application of the concept of Affordance from human-centered image composition tasks to a more general object-scene composition framework, addressing the complex interplay between foreground objects and background scenes. Following the principle of Affordance, we define the affordance-aware object insertion task, which aims to seamlessly insert any object into any scene with various position prompts. To address the limited data issue and incorporate this task, we constructed the SAM-FB dataset, which contains over 3 million examples across more than 3,000 object categories. Furthermore, we propose the Mask-Aware Dual Diffusion (MADD) model, which utilizes a dual-stream architecture to simultaneously denoise the RGB image and the insertion mask. By explicitly modeling the insertion mask in the diffusion process, MADD effectively facilitates the notion of affordance. Extensive experimental results show that our method outperforms the state-of-the-art methods and exhibits strong generalization performance on in-the-wild images. Please refer to our code on https://github.com/KaKituken/affordance-aware-any.

Summary

AI-Generated Summary

PDF152December 20, 2024