MVInpainter: Aprendizaje de Relleno Coherente de Vistas Múltiples para Conectar la Edición 2D y 3D
MVInpainter: Learning Multi-View Consistent Inpainting to Bridge 2D and 3D Editing
August 15, 2024
Autores: Chenjie Cao, Chaohui Yu, Yanwei Fu, Fan Wang, Xiangyang Xue
cs.AI
Resumen
La Síntesis de Vistas Noveles (SVN) y la generación 3D han logrado recientemente mejoras destacadas. Sin embargo, estos trabajos se centran principalmente en categorías limitadas o activos 3D sintéticos, lo que dificulta su generalización a escenas desafiantes en entornos naturales y su uso directo en la síntesis 2D. Además, estos métodos dependen en gran medida de las poses de la cámara, lo que limita sus aplicaciones en el mundo real. Para superar estos problemas, proponemos MVInpainter, reformulando la edición 3D como una tarea de rellenado de huecos en múltiples vistas 2D. Específicamente, MVInpainter rellena parcialmente imágenes de múltiples vistas con la guía de referencia en lugar de generar de manera inmanejable una vista completamente nueva desde cero, lo que simplifica en gran medida la dificultad de SVN en entornos naturales y aprovecha pistas no enmascaradas en lugar de condiciones explícitas de pose. Para garantizar la consistencia entre vistas, MVInpainter se mejora con prioridades de video a partir de componentes de movimiento y guía de apariencia de atención clave y valor concatenados. Además, MVInpainter incorpora atención por ranuras para agregar características de flujo óptico de alto nivel de regiones no enmascaradas para controlar el movimiento de la cámara con entrenamiento e inferencia sin pose. Experimentos a nivel de escena suficientes en conjuntos de datos centrados en objetos y orientados hacia adelante verifican la efectividad de MVInpainter, incluidas diversas tareas como eliminación, síntesis, inserción y reemplazo de objetos en múltiples vistas. La página del proyecto es https://ewrfcas.github.io/MVInpainter/.
English
Novel View Synthesis (NVS) and 3D generation have recently achieved prominent
improvements. However, these works mainly focus on confined categories or
synthetic 3D assets, which are discouraged from generalizing to challenging
in-the-wild scenes and fail to be employed with 2D synthesis directly.
Moreover, these methods heavily depended on camera poses, limiting their
real-world applications. To overcome these issues, we propose MVInpainter,
re-formulating the 3D editing as a multi-view 2D inpainting task. Specifically,
MVInpainter partially inpaints multi-view images with the reference guidance
rather than intractably generating an entirely novel view from scratch, which
largely simplifies the difficulty of in-the-wild NVS and leverages unmasked
clues instead of explicit pose conditions. To ensure cross-view consistency,
MVInpainter is enhanced by video priors from motion components and appearance
guidance from concatenated reference key&value attention. Furthermore,
MVInpainter incorporates slot attention to aggregate high-level optical flow
features from unmasked regions to control the camera movement with pose-free
training and inference. Sufficient scene-level experiments on both
object-centric and forward-facing datasets verify the effectiveness of
MVInpainter, including diverse tasks, such as multi-view object removal,
synthesis, insertion, and replacement. The project page is
https://ewrfcas.github.io/MVInpainter/.Summary
AI-Generated Summary