MVInpainter: Обучение многопредставлений для последовательного заполнения пробелов для соединения редактирования 2D и 3D
MVInpainter: Learning Multi-View Consistent Inpainting to Bridge 2D and 3D Editing
August 15, 2024
Авторы: Chenjie Cao, Chaohui Yu, Yanwei Fu, Fan Wang, Xiangyang Xue
cs.AI
Аннотация
Недавно были достигнуты значительные улучшения в синтезе нового вида (NVS) и генерации 3D. Однако эти работы в основном сосредотачиваются на ограниченных категориях или синтетических 3D-объектах, что затрудняет их обобщение на сложные сцены в естественной среде и не позволяет применять их непосредственно к синтезу 2D. Более того, эти методы сильно зависят от поз камеры, что ограничивает их применение в реальном мире. Для преодоления этих проблем мы предлагаем MVInpainter, переформулируя редактирование 3D как задачу многозначного заполнения 2D. Конкретно, MVInpainter частично заполняет многозначные изображения с помощью справочного руководства, а не неизбежно генерирует совершенно новый вид с нуля, что в значительной степени упрощает сложность NVS в естественной среде и использует незамаскированные подсказки вместо явных условий позы. Для обеспечения согласованности между видами, MVInpainter улучшается видеоприорами от компонентов движения и руководством по внешнему виду от конкатенированного внимания ключа и значения справочника. Более того, MVInpainter включает в себя слотовое внимание для агрегации высокоуровневых оптических потоковых функций из незамаскированных областей для управления движением камеры с обучением и выводом без условий позы. Достаточные эксперименты на уровне сцены как на объектно-ориентированных, так и на прямо-направленных наборах данных подтверждают эффективность MVInpainter, включая различные задачи, такие как удаление, синтез, вставка и замена объектов с несколькими видами. Страница проекта: https://ewrfcas.github.io/MVInpainter/.
English
Novel View Synthesis (NVS) and 3D generation have recently achieved prominent
improvements. However, these works mainly focus on confined categories or
synthetic 3D assets, which are discouraged from generalizing to challenging
in-the-wild scenes and fail to be employed with 2D synthesis directly.
Moreover, these methods heavily depended on camera poses, limiting their
real-world applications. To overcome these issues, we propose MVInpainter,
re-formulating the 3D editing as a multi-view 2D inpainting task. Specifically,
MVInpainter partially inpaints multi-view images with the reference guidance
rather than intractably generating an entirely novel view from scratch, which
largely simplifies the difficulty of in-the-wild NVS and leverages unmasked
clues instead of explicit pose conditions. To ensure cross-view consistency,
MVInpainter is enhanced by video priors from motion components and appearance
guidance from concatenated reference key&value attention. Furthermore,
MVInpainter incorporates slot attention to aggregate high-level optical flow
features from unmasked regions to control the camera movement with pose-free
training and inference. Sufficient scene-level experiments on both
object-centric and forward-facing datasets verify the effectiveness of
MVInpainter, including diverse tasks, such as multi-view object removal,
synthesis, insertion, and replacement. The project page is
https://ewrfcas.github.io/MVInpainter/.Summary
AI-Generated Summary