ChatPaper.aiChatPaper

Sketch-A-Shape : Génération de formes 3D à partir de croquis en mode zero-shot

Sketch-A-Shape: Zero-Shot Sketch-to-3D Shape Generation

July 8, 2023
Auteurs: Aditya Sanghi, Pradeep Kumar Jayaraman, Arianna Rampini, Joseph Lambourne, Hooman Shayani, Evan Atherton, Saeid Asgari Taghanaki
cs.AI

Résumé

Des progrès significatifs ont récemment été réalisés dans les applications créatives de grands modèles pré-entraînés pour des tâches en vision 3D, telles que la génération de formes à partir de texte. Cela motive notre investigation sur la manière dont ces modèles pré-entraînés peuvent être utilisés efficacement pour générer des formes 3D à partir d'esquisses, ce qui reste en grande partie un défi ouvert en raison des ensembles de données limités d'esquisses-formes appariées et des niveaux d'abstraction variables dans les esquisses. Nous découvrons que conditionner un modèle génératif 3D sur les caractéristiques (obtenues à partir d'un grand modèle de vision pré-entraîné et figé) de rendus synthétiques pendant l'entraînement nous permet de générer efficacement des formes 3D à partir d'esquisses au moment de l'inférence. Cela suggère que les caractéristiques du grand modèle de vision pré-entraîné portent des signaux sémantiques résilients aux changements de domaine, c'est-à-dire permettant d'utiliser uniquement des rendus RGB, tout en généralisant aux esquisses au moment de l'inférence. Nous menons un ensemble complet d'expériences explorant différents facteurs de conception et démontrons l'efficacité de notre approche simple pour la génération de multiples formes 3D pour chaque esquisse d'entrée, quel que soit leur niveau d'abstraction, sans nécessiter de jeux de données appariés pendant l'entraînement.
English
Significant progress has recently been made in creative applications of large pre-trained models for downstream tasks in 3D vision, such as text-to-shape generation. This motivates our investigation of how these pre-trained models can be used effectively to generate 3D shapes from sketches, which has largely remained an open challenge due to the limited sketch-shape paired datasets and the varying level of abstraction in the sketches. We discover that conditioning a 3D generative model on the features (obtained from a frozen large pre-trained vision model) of synthetic renderings during training enables us to effectively generate 3D shapes from sketches at inference time. This suggests that the large pre-trained vision model features carry semantic signals that are resilient to domain shifts, i.e., allowing us to use only RGB renderings, but generalizing to sketches at inference time. We conduct a comprehensive set of experiments investigating different design factors and demonstrate the effectiveness of our straightforward approach for generation of multiple 3D shapes per each input sketch regardless of their level of abstraction without requiring any paired datasets during training.
PDF231December 15, 2024