ChatPaper.aiChatPaper

IM-3D : Diffusion et reconstruction multivues itératives pour une génération 3D de haute qualité

IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality 3D Generation

February 13, 2024
Auteurs: Luke Melas-Kyriazi, Iro Laina, Christian Rupprecht, Natalia Neverova, Andrea Vedaldi, Oran Gafni, Filippos Kokkinos
cs.AI

Résumé

La plupart des générateurs de texte-à-3D s'appuient sur des modèles de texte-à-image pré-entraînés sur des milliards d'images. Ils utilisent des variantes de l'échantillonnage par distillation de score (Score Distillation Sampling, SDS), qui est lent, quelque peu instable et sujet à des artefacts. Une solution consiste à affiner le générateur 2D pour qu'il soit conscient des vues multiples, ce qui peut faciliter la distillation ou être combiné avec des réseaux de reconstruction pour produire directement des objets 3D. Dans cet article, nous explorons davantage l'espace de conception des modèles texte-à-3D. Nous améliorons considérablement la génération de vues multiples en considérant des générateurs de vidéo plutôt que d'images. Combiné avec un algorithme de reconstruction 3D qui, en utilisant le lissage gaussien, peut optimiser une fonction de perte robuste basée sur les images, nous produisons directement des sorties 3D de haute qualité à partir des vues générées. Notre nouvelle méthode, IM-3D, réduit le nombre d'évaluations du réseau générateur 2D de 10 à 100 fois, ce qui résulte en un pipeline beaucoup plus efficace, une meilleure qualité, moins d'incohérences géométriques et un rendement plus élevé d'actifs 3D utilisables.
English
Most text-to-3D generators build upon off-the-shelf text-to-image models trained on billions of images. They use variants of Score Distillation Sampling (SDS), which is slow, somewhat unstable, and prone to artifacts. A mitigation is to fine-tune the 2D generator to be multi-view aware, which can help distillation or can be combined with reconstruction networks to output 3D objects directly. In this paper, we further explore the design space of text-to-3D models. We significantly improve multi-view generation by considering video instead of image generators. Combined with a 3D reconstruction algorithm which, by using Gaussian splatting, can optimize a robust image-based loss, we directly produce high-quality 3D outputs from the generated views. Our new method, IM-3D, reduces the number of evaluations of the 2D generator network 10-100x, resulting in a much more efficient pipeline, better quality, fewer geometric inconsistencies, and higher yield of usable 3D assets.

Summary

AI-Generated Summary

PDF141December 15, 2024