Sketch-A-Shape: Nul-Shot Schets-naar-3D-Vorm Generatie

Samenvatting

Er is recentelijk aanzienlijke vooruitgang geboekt in creatieve toepassingen van grote vooraf getrainde modellen voor downstream taken in 3D-visie, zoals tekst-naar-vorm-generatie. Dit motiveert ons onderzoek naar hoe deze vooraf getrainde modellen effectief kunnen worden gebruikt om 3D-vormen uit schetsen te genereren, wat grotendeels een open uitdaging is gebleven vanwege de beperkte gepaarde datasets van schetsen en vormen en het variërende abstractieniveau in de schetsen. We ontdekken dat het conditioneren van een 3D-generatief model op de kenmerken (verkregen uit een bevroren groot vooraf getraind visiemodel) van synthetische weergaven tijdens de training ons in staat stelt om effectief 3D-vormen uit schetsen te genereren tijdens de inferentiefase. Dit suggereert dat de kenmerken van het grote vooraf getrainde visiemodel semantische signalen bevatten die bestand zijn tegen domeinverschuivingen, waardoor we alleen RGB-weergaven kunnen gebruiken, maar toch kunnen generaliseren naar schetsen tijdens de inferentiefase. We voeren een uitgebreide reeks experimenten uit waarin we verschillende ontwerpfactoren onderzoeken en demonstreren de effectiviteit van onze eenvoudige aanpak voor het genereren van meerdere 3D-vormen per ingevoerde schets, ongeacht hun abstractieniveau, zonder dat er tijdens de training gepaarde datasets nodig zijn.

English

Significant progress has recently been made in creative applications of large pre-trained models for downstream tasks in 3D vision, such as text-to-shape generation. This motivates our investigation of how these pre-trained models can be used effectively to generate 3D shapes from sketches, which has largely remained an open challenge due to the limited sketch-shape paired datasets and the varying level of abstraction in the sketches. We discover that conditioning a 3D generative model on the features (obtained from a frozen large pre-trained vision model) of synthetic renderings during training enables us to effectively generate 3D shapes from sketches at inference time. This suggests that the large pre-trained vision model features carry semantic signals that are resilient to domain shifts, i.e., allowing us to use only RGB renderings, but generalizing to sketches at inference time. We conduct a comprehensive set of experiments investigating different design factors and demonstrate the effectiveness of our straightforward approach for generation of multiple 3D shapes per each input sketch regardless of their level of abstraction without requiring any paired datasets during training.

Sketch-A-Shape: Nul-Shot Schets-naar-3D-Vorm Generatie

Sketch-A-Shape: Zero-Shot Sketch-to-3D Shape Generation

Samenvatting

Support