ChatPaper.aiChatPaper

MVDiffusion++: Плотная диффузионная модель высокого разрешения для многовидового восстановления 3D-объектов по одному или нескольким изображениям

MVDiffusion++: A Dense High-resolution Multi-view Diffusion Model for Single or Sparse-view 3D Object Reconstruction

February 20, 2024
Авторы: Shitao Tang, Jiacheng Chen, Dilin Wang, Chengzhou Tang, Fuyang Zhang, Yuchen Fan, Vikas Chandra, Yasutaka Furukawa, Rakesh Ranjan
cs.AI

Аннотация

В данной статье представлена нейронная архитектура MVDiffusion++ для реконструкции 3D-объектов, которая синтезирует плотные и высококачественные изображения объекта на основе одного или нескольких изображений без информации о положении камеры. MVDiffusion++ достигает превосходной гибкости и масштабируемости благодаря двум удивительно простым идеям: 1) «архитектура без использования поз», в которой стандартное самовнимание между 2D-латентными признаками изучает 3D-согласованность между произвольным количеством условных и генерируемых видов без явного использования информации о положении камеры; и 2) «стратегия выборочного отбрасывания видов», которая отбрасывает значительное количество выходных видов во время обучения, что уменьшает объем памяти, необходимый для обучения, и позволяет синтезировать плотные и высококачественные изображения на этапе тестирования. Для обучения используется набор данных Objaverse, а для оценки — Google Scanned Objects с использованием стандартных метрик синтеза новых видов и 3D-реконструкции, где MVDiffusion++ значительно превосходит современные методы. Также демонстрируется пример применения текста к 3D путем комбинирования MVDiffusion++ с генеративной моделью, преобразующей текст в изображение.
English
This paper presents a neural architecture MVDiffusion++ for 3D object reconstruction that synthesizes dense and high-resolution views of an object given one or a few images without camera poses. MVDiffusion++ achieves superior flexibility and scalability with two surprisingly simple ideas: 1) A ``pose-free architecture'' where standard self-attention among 2D latent features learns 3D consistency across an arbitrary number of conditional and generation views without explicitly using camera pose information; and 2) A ``view dropout strategy'' that discards a substantial number of output views during training, which reduces the training-time memory footprint and enables dense and high-resolution view synthesis at test time. We use the Objaverse for training and the Google Scanned Objects for evaluation with standard novel view synthesis and 3D reconstruction metrics, where MVDiffusion++ significantly outperforms the current state of the arts. We also demonstrate a text-to-3D application example by combining MVDiffusion++ with a text-to-image generative model.

Summary

AI-Generated Summary

PDF184December 15, 2024