MVD^2: Эффективная многовидовая 3D-реконструкция для многовидовой диффузии
MVD^2: Efficient Multiview 3D Reconstruction for Multiview Diffusion
February 22, 2024
Авторы: Xin-Yang Zheng, Hao Pan, Yu-Xiao Guo, Xin Tong, Yang Liu
cs.AI
Аннотация
Как перспективная технология генерации 3D, мультивью диффузия (MVD) привлекает значительное внимание благодаря своим преимуществам в области обобщаемости, качества и эффективности. Путем дообучения предварительно обученных крупных моделей диффузии изображений на 3D данных, методы MVD сначала генерируют несколько видов 3D объекта на основе изображения или текстового запроса, а затем восстанавливают 3D формы с помощью мультивью 3D реконструкции. Однако разреженные виды и несогласованные детали в сгенерированных изображениях делают 3D реконструкцию сложной задачей. Мы представляем MVD^2, эффективный метод 3D реконструкции для изображений мультивью диффузии (MVD). MVD^2 агрегирует признаки изображений в 3D объем признаков с помощью проекции и свертки, а затем декодирует объемные признаки в 3D сетку. Мы обучаем MVD^2 на коллекциях 3D форм и изображениях MVD, сгенерированных на основе визуализированных видов 3D форм. Для устранения расхождений между сгенерированными мультивью изображениями и эталонными видами 3D форм, мы разработали простую, но эффективную схему обучения, зависящую от вида. MVD^2 улучшает качество 3D генерации MVD, являясь быстрым и устойчивым к различным методам MVD. После обучения он может эффективно декодировать 3D сетки из мультивью изображений менее чем за одну секунду. Мы обучаем MVD^2 на данных Zero-123++ и наборе данных ObjectVerse-LVIS 3D, демонстрируя его превосходную производительность в генерации 3D моделей из мультивью изображений, созданных различными методами MVD, используя как синтетические, так и реальные изображения в качестве запросов.
English
As a promising 3D generation technique, multiview diffusion (MVD) has
received a lot of attention due to its advantages in terms of generalizability,
quality, and efficiency. By finetuning pretrained large image diffusion models
with 3D data, the MVD methods first generate multiple views of a 3D object
based on an image or text prompt and then reconstruct 3D shapes with multiview
3D reconstruction. However, the sparse views and inconsistent details in the
generated images make 3D reconstruction challenging. We present MVD^2, an
efficient 3D reconstruction method for multiview diffusion (MVD) images.
MVD^2 aggregates image features into a 3D feature volume by projection and
convolution and then decodes volumetric features into a 3D mesh. We train
MVD^2 with 3D shape collections and MVD images prompted by rendered views of
3D shapes. To address the discrepancy between the generated multiview images
and ground-truth views of the 3D shapes, we design a simple-yet-efficient
view-dependent training scheme. MVD^2 improves the 3D generation quality of
MVD and is fast and robust to various MVD methods. After training, it can
efficiently decode 3D meshes from multiview images within one second. We train
MVD^2 with Zero-123++ and ObjectVerse-LVIS 3D dataset and demonstrate its
superior performance in generating 3D models from multiview images generated by
different MVD methods, using both synthetic and real images as prompts.