ChatPaper.aiChatPaper

MVInpainter : Apprentissage d'une inpainting cohérente multi-vues pour relier l'édition 2D et 3D

MVInpainter: Learning Multi-View Consistent Inpainting to Bridge 2D and 3D Editing

August 15, 2024
Auteurs: Chenjie Cao, Chaohui Yu, Yanwei Fu, Fan Wang, Xiangyang Xue
cs.AI

Résumé

La synthèse de nouvelles vues (Novel View Synthesis, NVS) et la génération 3D ont récemment enregistré des améliorations notables. Cependant, ces travaux se concentrent principalement sur des catégories restreintes ou des actifs 3D synthétiques, ce qui limite leur capacité à généraliser à des scènes complexes en conditions réelles et à être directement intégrés à la synthèse 2D. De plus, ces méthodes dépendent fortement des poses de caméra, ce qui restreint leurs applications pratiques. Pour surmonter ces limitations, nous proposons MVInpainter, qui reformule l'édition 3D comme une tâche d'inpainting 2D multi-vues. Concrètement, MVInpainter effectue un inpainting partiel d'images multi-vues en s'appuyant sur des références plutôt que de générer entièrement une nouvelle vue à partir de zéro, ce qui simplifie grandement la complexité de la NVS en conditions réelles et exploite des indices non masqués au lieu de conditions de pose explicites. Pour garantir la cohérence inter-vues, MVInpainter est renforcé par des préalables vidéo issus de composantes de mouvement et des guides d'apparence basés sur l'attention concaténée des clés et valeurs de référence. Par ailleurs, MVInpainter intègre une attention par slots pour agréger des caractéristiques de flux optique de haut niveau à partir des régions non masquées, permettant ainsi de contrôler le mouvement de la caméra sans nécessiter de pose lors de l'entraînement et de l'inférence. Des expériences approfondies au niveau des scènes, sur des ensembles de données centrés sur les objets et orientés vers l'avant, confirment l'efficacité de MVInpainter pour diverses tâches, telles que la suppression, la synthèse, l'insertion et le remplacement d'objets multi-vues. La page du projet est disponible à l'adresse suivante : https://ewrfcas.github.io/MVInpainter/.
English
Novel View Synthesis (NVS) and 3D generation have recently achieved prominent improvements. However, these works mainly focus on confined categories or synthetic 3D assets, which are discouraged from generalizing to challenging in-the-wild scenes and fail to be employed with 2D synthesis directly. Moreover, these methods heavily depended on camera poses, limiting their real-world applications. To overcome these issues, we propose MVInpainter, re-formulating the 3D editing as a multi-view 2D inpainting task. Specifically, MVInpainter partially inpaints multi-view images with the reference guidance rather than intractably generating an entirely novel view from scratch, which largely simplifies the difficulty of in-the-wild NVS and leverages unmasked clues instead of explicit pose conditions. To ensure cross-view consistency, MVInpainter is enhanced by video priors from motion components and appearance guidance from concatenated reference key&value attention. Furthermore, MVInpainter incorporates slot attention to aggregate high-level optical flow features from unmasked regions to control the camera movement with pose-free training and inference. Sufficient scene-level experiments on both object-centric and forward-facing datasets verify the effectiveness of MVInpainter, including diverse tasks, such as multi-view object removal, synthesis, insertion, and replacement. The project page is https://ewrfcas.github.io/MVInpainter/.

Summary

AI-Generated Summary

PDF92November 26, 2024