Sketch-A-Shape: Generazione di Forme 3D da Schizzi in Modalità Zero-Shot
Sketch-A-Shape: Zero-Shot Sketch-to-3D Shape Generation
July 8, 2023
Autori: Aditya Sanghi, Pradeep Kumar Jayaraman, Arianna Rampini, Joseph Lambourne, Hooman Shayani, Evan Atherton, Saeid Asgari Taghanaki
cs.AI
Abstract
Recentemente sono stati compiuti progressi significativi nelle applicazioni creative di modelli pre-addestrati di grandi dimensioni per task downstream nella visione 3D, come la generazione di forme a partire da testo. Ciò motiva la nostra indagine su come questi modelli pre-addestrati possano essere utilizzati in modo efficace per generare forme 3D da schizzi, una sfida che rimane in gran parte aperta a causa della limitata disponibilità di dataset accoppiati schizzo-forma e del variabile livello di astrazione negli schizzi. Scopriamo che condizionare un modello generativo 3D sulle feature (ottenute da un modello di visione pre-addestrato di grandi dimensioni e congelato) di rendering sintetici durante l'addestramento ci consente di generare efficacemente forme 3D da schizzi al momento dell'inferenza. Ciò suggerisce che le feature dei modelli di visione pre-addestrati di grandi dimensioni trasportano segnali semantici resilienti ai cambiamenti di dominio, permettendoci di utilizzare solo rendering RGB, ma generalizzando agli schizzi al momento dell'inferenza. Conduciamo una serie completa di esperimenti che indagano diversi fattori di progettazione e dimostriamo l'efficacia del nostro approccio diretto per la generazione di più forme 3D per ciascuno schizzo di input, indipendentemente dal loro livello di astrazione, senza richiedere alcun dataset accoppiato durante l'addestramento.
English
Significant progress has recently been made in creative applications of large
pre-trained models for downstream tasks in 3D vision, such as text-to-shape
generation. This motivates our investigation of how these pre-trained models
can be used effectively to generate 3D shapes from sketches, which has largely
remained an open challenge due to the limited sketch-shape paired datasets and
the varying level of abstraction in the sketches. We discover that conditioning
a 3D generative model on the features (obtained from a frozen large pre-trained
vision model) of synthetic renderings during training enables us to effectively
generate 3D shapes from sketches at inference time. This suggests that the
large pre-trained vision model features carry semantic signals that are
resilient to domain shifts, i.e., allowing us to use only RGB renderings, but
generalizing to sketches at inference time. We conduct a comprehensive set of
experiments investigating different design factors and demonstrate the
effectiveness of our straightforward approach for generation of multiple 3D
shapes per each input sketch regardless of their level of abstraction without
requiring any paired datasets during training.