MVInpainter: Apprendimento di un Inpainting Coerente Multi-Vista per Collegare l'Editing 2D e 3D
MVInpainter: Learning Multi-View Consistent Inpainting to Bridge 2D and 3D Editing
August 15, 2024
Autori: Chenjie Cao, Chaohui Yu, Yanwei Fu, Fan Wang, Xiangyang Xue
cs.AI
Abstract
La sintesi di nuove viste (Novel View Synthesis, NVS) e la generazione 3D hanno recentemente ottenuto miglioramenti significativi. Tuttavia, questi lavori si concentrano principalmente su categorie limitate o su risorse 3D sintetiche, il che ne impedisce la generalizzazione a scene complesse del mondo reale e rende difficile l'integrazione diretta con la sintesi 2D. Inoltre, questi metodi dipendono fortemente dalle pose della telecamera, limitandone le applicazioni pratiche. Per superare questi problemi, proponiamo MVInpainter, riformulando l'editing 3D come un'attività di inpainting 2D multi-vista. Nello specifico, MVInpainter esegue l'inpainting parziale di immagini multi-vista con guida di riferimento, anziché generare da zero una vista completamente nuova, semplificando notevolmente la complessità della NVS in contesti reali e sfruttando indizi non mascherati invece di condizioni esplicite sulla posa. Per garantire la coerenza tra le viste, MVInpainter è potenziato da prior video derivate da componenti di movimento e da una guida sull'aspetto basata sull'attenzione concatenata di chiavi e valori di riferimento. Inoltre, MVInpainter incorpora l'attenzione a slot per aggregare caratteristiche di flusso ottico di alto livello da regioni non mascherate, consentendo il controllo del movimento della telecamera senza bisogno di pose durante l'addestramento e l'inferenza. Esperimenti sufficienti a livello di scena, sia su dataset centrati sugli oggetti che su dataset frontali, confermano l'efficacia di MVInpainter in diverse attività, come la rimozione, la sintesi, l'inserimento e la sostituzione di oggetti multi-vista. La pagina del progetto è disponibile all'indirizzo https://ewrfcas.github.io/MVInpainter/.
English
Novel View Synthesis (NVS) and 3D generation have recently achieved prominent
improvements. However, these works mainly focus on confined categories or
synthetic 3D assets, which are discouraged from generalizing to challenging
in-the-wild scenes and fail to be employed with 2D synthesis directly.
Moreover, these methods heavily depended on camera poses, limiting their
real-world applications. To overcome these issues, we propose MVInpainter,
re-formulating the 3D editing as a multi-view 2D inpainting task. Specifically,
MVInpainter partially inpaints multi-view images with the reference guidance
rather than intractably generating an entirely novel view from scratch, which
largely simplifies the difficulty of in-the-wild NVS and leverages unmasked
clues instead of explicit pose conditions. To ensure cross-view consistency,
MVInpainter is enhanced by video priors from motion components and appearance
guidance from concatenated reference key&value attention. Furthermore,
MVInpainter incorporates slot attention to aggregate high-level optical flow
features from unmasked regions to control the camera movement with pose-free
training and inference. Sufficient scene-level experiments on both
object-centric and forward-facing datasets verify the effectiveness of
MVInpainter, including diverse tasks, such as multi-view object removal,
synthesis, insertion, and replacement. The project page is
https://ewrfcas.github.io/MVInpainter/.