MVInpainter: Erlernen von Multi-View-konsistentem Inpainting zur Verbindung von 2D- und 3D-Bearbeitung
MVInpainter: Learning Multi-View Consistent Inpainting to Bridge 2D and 3D Editing
August 15, 2024
Autoren: Chenjie Cao, Chaohui Yu, Yanwei Fu, Fan Wang, Xiangyang Xue
cs.AI
Zusammenfassung
Die Neuansichtssynthese (NVS) und die 3D-Generierung haben in letzter Zeit bedeutende Verbesserungen erzielt. Diese Arbeiten konzentrieren sich jedoch hauptsächlich auf begrenzte Kategorien oder synthetische 3D-Ressourcen, die davon abgehalten werden, sich auf anspruchsvolle Szenen in freier Wildbahn zu verallgemeinern und nicht direkt für die Verwendung mit der 2D-Synthese geeignet sind. Darüber hinaus hingen diese Methoden stark von Kamerapositionen ab, was ihre Anwendbarkeit im realen Leben einschränkte. Um diese Probleme zu überwinden, schlagen wir MVInpainter vor, der die 3D-Bearbeitung als eine Multi-View-2D-Inpainting-Aufgabe neu formuliert. Speziell füllt MVInpainter Multi-View-Bilder teilweise mit Hilfe von Referenzanleitungen aus, anstatt unüberwindlich eine völlig neue Ansicht von Grund auf zu generieren, was die Schwierigkeit von NVS in freier Wildbahn erheblich vereinfacht und unmaskierte Hinweise anstelle expliziter Pose-Bedingungen nutzt. Um die Konsistenz zwischen den Ansichten sicherzustellen, wird MVInpainter durch Videoprioritäten aus Bewegungskomponenten und Erscheinungsanleitungen aus konkatenierter Referenzschlüssel- und Wert-Aufmerksamkeit verbessert. Darüber hinaus integriert MVInpainter Slot-Aufmerksamkeit, um hochrangige optische Flussmerkmale aus unmaskierten Regionen zu aggregieren, um die Kamerabewegung mit posefreiem Training und Inferenz zu steuern. Ausreichende Szenenexperimente sowohl mit objektorientierten als auch mit nach vorne gerichteten Datensätzen bestätigen die Wirksamkeit von MVInpainter, einschließlich verschiedener Aufgaben wie dem Entfernen, Synthetisieren, Einfügen und Ersetzen von Objekten aus Multi-View-Perspektiven. Die Projektseite ist https://ewrfcas.github.io/MVInpainter/.
English
Novel View Synthesis (NVS) and 3D generation have recently achieved prominent
improvements. However, these works mainly focus on confined categories or
synthetic 3D assets, which are discouraged from generalizing to challenging
in-the-wild scenes and fail to be employed with 2D synthesis directly.
Moreover, these methods heavily depended on camera poses, limiting their
real-world applications. To overcome these issues, we propose MVInpainter,
re-formulating the 3D editing as a multi-view 2D inpainting task. Specifically,
MVInpainter partially inpaints multi-view images with the reference guidance
rather than intractably generating an entirely novel view from scratch, which
largely simplifies the difficulty of in-the-wild NVS and leverages unmasked
clues instead of explicit pose conditions. To ensure cross-view consistency,
MVInpainter is enhanced by video priors from motion components and appearance
guidance from concatenated reference key&value attention. Furthermore,
MVInpainter incorporates slot attention to aggregate high-level optical flow
features from unmasked regions to control the camera movement with pose-free
training and inference. Sufficient scene-level experiments on both
object-centric and forward-facing datasets verify the effectiveness of
MVInpainter, including diverse tasks, such as multi-view object removal,
synthesis, insertion, and replacement. The project page is
https://ewrfcas.github.io/MVInpainter/.Summary
AI-Generated Summary