Flex3D : Génération 3D à propagation avant avec modèle de reconstruction flexible et curation de vue d'entrée
Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation
October 1, 2024
Auteurs: Junlin Han, Jianyuan Wang, Andrea Vedaldi, Philip Torr, Filippos Kokkinos
cs.AI
Résumé
La génération de contenu 3D de haute qualité à partir de texte, d'images individuelles ou d'images de vue éparse reste une tâche difficile avec de larges applications. Les méthodes existantes utilisent généralement des modèles de diffusion multi-vue pour synthétiser des images multi-vues, suivis d'un processus feed-forward pour la reconstruction 3D. Cependant, ces approches sont souvent limitées par un nombre réduit et fixe de vues d'entrée, ce qui limite leur capacité à capturer des points de vue divers et, pire encore, conduit à des résultats de génération sous-optimaux si les vues synthétisées sont de mauvaise qualité. Pour remédier à ces limitations, nous proposons Flex3D, un nouveau cadre en deux étapes capable d'exploiter un nombre arbitraire de vues d'entrée de haute qualité. La première étape consiste en un pipeline de génération et de curation de vues candidates. Nous utilisons un modèle de diffusion d'images multi-vues affiné et un modèle de diffusion vidéo pour générer un ensemble de vues candidates, permettant une représentation riche de l'objet 3D cible. Ensuite, un pipeline de sélection de vues filtre ces vues en fonction de leur qualité et de leur cohérence, garantissant que seules les vues de haute qualité et fiables sont utilisées pour la reconstruction. Dans la deuxième étape, les vues sélectionnées sont introduites dans un Modèle de Reconstruction Flexible (FlexRM), basé sur une architecture transformer capable de traiter efficacement un nombre arbitraire d'entrées. FlexRM produit directement des points gaussiens 3D en utilisant une représentation tri-planaire, permettant une génération 3D efficace et détaillée. À travers une exploration approfondie des stratégies de conception et d'entraînement, nous optimisons FlexRM pour atteindre des performances supérieures dans les tâches de reconstruction et de génération. Nos résultats démontrent que Flex3D atteint des performances de pointe, avec un taux de réussite d'étude utilisateur de plus de 92% dans les tâches de génération 3D par rapport à plusieurs des derniers modèles génératifs 3D feed-forward.
English
Generating high-quality 3D content from text, single images, or sparse view
images remains a challenging task with broad applications.Existing methods
typically employ multi-view diffusion models to synthesize multi-view images,
followed by a feed-forward process for 3D reconstruction. However, these
approaches are often constrained by a small and fixed number of input views,
limiting their ability to capture diverse viewpoints and, even worse, leading
to suboptimal generation results if the synthesized views are of poor quality.
To address these limitations, we propose Flex3D, a novel two-stage framework
capable of leveraging an arbitrary number of high-quality input views. The
first stage consists of a candidate view generation and curation pipeline. We
employ a fine-tuned multi-view image diffusion model and a video diffusion
model to generate a pool of candidate views, enabling a rich representation of
the target 3D object. Subsequently, a view selection pipeline filters these
views based on quality and consistency, ensuring that only the high-quality and
reliable views are used for reconstruction. In the second stage, the curated
views are fed into a Flexible Reconstruction Model (FlexRM), built upon a
transformer architecture that can effectively process an arbitrary number of
inputs. FlemRM directly outputs 3D Gaussian points leveraging a tri-plane
representation, enabling efficient and detailed 3D generation. Through
extensive exploration of design and training strategies, we optimize FlexRM to
achieve superior performance in both reconstruction and generation tasks. Our
results demonstrate that Flex3D achieves state-of-the-art performance, with a
user study winning rate of over 92% in 3D generation tasks when compared to
several of the latest feed-forward 3D generative models.Summary
AI-Generated Summary