Sketch-A-Shape: Nul-Shot Schets-naar-3D-Vorm Generatie
Sketch-A-Shape: Zero-Shot Sketch-to-3D Shape Generation
July 8, 2023
Auteurs: Aditya Sanghi, Pradeep Kumar Jayaraman, Arianna Rampini, Joseph Lambourne, Hooman Shayani, Evan Atherton, Saeid Asgari Taghanaki
cs.AI
Samenvatting
Er is recentelijk aanzienlijke vooruitgang geboekt in creatieve toepassingen van grote vooraf getrainde modellen voor downstream taken in 3D-visie, zoals tekst-naar-vorm-generatie. Dit motiveert ons onderzoek naar hoe deze vooraf getrainde modellen effectief kunnen worden gebruikt om 3D-vormen uit schetsen te genereren, wat grotendeels een open uitdaging is gebleven vanwege de beperkte gepaarde datasets van schetsen en vormen en het variërende abstractieniveau in de schetsen. We ontdekken dat het conditioneren van een 3D-generatief model op de kenmerken (verkregen uit een bevroren groot vooraf getraind visiemodel) van synthetische weergaven tijdens de training ons in staat stelt om effectief 3D-vormen uit schetsen te genereren tijdens de inferentiefase. Dit suggereert dat de kenmerken van het grote vooraf getrainde visiemodel semantische signalen bevatten die bestand zijn tegen domeinverschuivingen, waardoor we alleen RGB-weergaven kunnen gebruiken, maar toch kunnen generaliseren naar schetsen tijdens de inferentiefase. We voeren een uitgebreide reeks experimenten uit waarin we verschillende ontwerpfactoren onderzoeken en demonstreren de effectiviteit van onze eenvoudige aanpak voor het genereren van meerdere 3D-vormen per ingevoerde schets, ongeacht hun abstractieniveau, zonder dat er tijdens de training gepaarde datasets nodig zijn.
English
Significant progress has recently been made in creative applications of large
pre-trained models for downstream tasks in 3D vision, such as text-to-shape
generation. This motivates our investigation of how these pre-trained models
can be used effectively to generate 3D shapes from sketches, which has largely
remained an open challenge due to the limited sketch-shape paired datasets and
the varying level of abstraction in the sketches. We discover that conditioning
a 3D generative model on the features (obtained from a frozen large pre-trained
vision model) of synthetic renderings during training enables us to effectively
generate 3D shapes from sketches at inference time. This suggests that the
large pre-trained vision model features carry semantic signals that are
resilient to domain shifts, i.e., allowing us to use only RGB renderings, but
generalizing to sketches at inference time. We conduct a comprehensive set of
experiments investigating different design factors and demonstrate the
effectiveness of our straightforward approach for generation of multiple 3D
shapes per each input sketch regardless of their level of abstraction without
requiring any paired datasets during training.