MVInpainter: Het leren van multi-view consistente inpainting om 2D- en 3D-bewerking te verbinden
MVInpainter: Learning Multi-View Consistent Inpainting to Bridge 2D and 3D Editing
August 15, 2024
Auteurs: Chenjie Cao, Chaohui Yu, Yanwei Fu, Fan Wang, Xiangyang Xue
cs.AI
Samenvatting
Novel View Synthesis (NVS) en 3D-generatie hebben recentelijk aanzienlijke verbeteringen bereikt. Deze werken richten zich echter voornamelijk op beperkte categorieën of synthetische 3D-assets, wat de generalisatie naar uitdagende real-world scènes belemmert en het directe gebruik met 2D-synthese verhindert. Bovendien zijn deze methoden sterk afhankelijk van cameraposities, wat hun toepasbaarheid in de praktijk beperkt. Om deze problemen te overwinnen, stellen we MVInpainter voor, waarbij 3D-bewerking wordt herformuleerd als een multi-view 2D-inpainting-taak. Specifiek inpaint MVInpainter gedeeltelijk multi-view afbeeldingen met referentierichtlijnen in plaats van moeizaam een geheel nieuwe weergave vanaf nul te genereren, wat de complexiteit van in-the-wild NVS aanzienlijk vereenvoudigt en gebruikmaakt van ongemaskeerde aanwijzingen in plaats van expliciete positievoorwaarden. Om consistentie tussen verschillende weergaven te garanderen, wordt MVInpainter versterkt door video-priors uit bewegingscomponenten en uiterlijkrichtlijnen uit geconcateneerde referentie key&value-attentie. Bovendien integreert MVInpainter slot attention om hoogwaardige optische stroomkenmerken uit ongemaskeerde regio's te aggregeren, waardoor camerabeweging wordt gecontroleerd zonder afhankelijkheid van posities tijdens training en inferentie. Uitgebreide experimenten op zowel objectgerichte als voorwaarts gerichte datasets bevestigen de effectiviteit van MVInpainter, inclusief diverse taken zoals multi-view objectverwijdering, synthese, invoeging en vervanging. De projectpagina is te vinden op https://ewrfcas.github.io/MVInpainter/.
English
Novel View Synthesis (NVS) and 3D generation have recently achieved prominent
improvements. However, these works mainly focus on confined categories or
synthetic 3D assets, which are discouraged from generalizing to challenging
in-the-wild scenes and fail to be employed with 2D synthesis directly.
Moreover, these methods heavily depended on camera poses, limiting their
real-world applications. To overcome these issues, we propose MVInpainter,
re-formulating the 3D editing as a multi-view 2D inpainting task. Specifically,
MVInpainter partially inpaints multi-view images with the reference guidance
rather than intractably generating an entirely novel view from scratch, which
largely simplifies the difficulty of in-the-wild NVS and leverages unmasked
clues instead of explicit pose conditions. To ensure cross-view consistency,
MVInpainter is enhanced by video priors from motion components and appearance
guidance from concatenated reference key&value attention. Furthermore,
MVInpainter incorporates slot attention to aggregate high-level optical flow
features from unmasked regions to control the camera movement with pose-free
training and inference. Sufficient scene-level experiments on both
object-centric and forward-facing datasets verify the effectiveness of
MVInpainter, including diverse tasks, such as multi-view object removal,
synthesis, insertion, and replacement. The project page is
https://ewrfcas.github.io/MVInpainter/.