Sketch-A-Shape: Generazione di Forme 3D da Schizzi in Modalità Zero-Shot

Abstract

Recentemente sono stati compiuti progressi significativi nelle applicazioni creative di modelli pre-addestrati di grandi dimensioni per task downstream nella visione 3D, come la generazione di forme a partire da testo. Ciò motiva la nostra indagine su come questi modelli pre-addestrati possano essere utilizzati in modo efficace per generare forme 3D da schizzi, una sfida che rimane in gran parte aperta a causa della limitata disponibilità di dataset accoppiati schizzo-forma e del variabile livello di astrazione negli schizzi. Scopriamo che condizionare un modello generativo 3D sulle feature (ottenute da un modello di visione pre-addestrato di grandi dimensioni e congelato) di rendering sintetici durante l'addestramento ci consente di generare efficacemente forme 3D da schizzi al momento dell'inferenza. Ciò suggerisce che le feature dei modelli di visione pre-addestrati di grandi dimensioni trasportano segnali semantici resilienti ai cambiamenti di dominio, permettendoci di utilizzare solo rendering RGB, ma generalizzando agli schizzi al momento dell'inferenza. Conduciamo una serie completa di esperimenti che indagano diversi fattori di progettazione e dimostriamo l'efficacia del nostro approccio diretto per la generazione di più forme 3D per ciascuno schizzo di input, indipendentemente dal loro livello di astrazione, senza richiedere alcun dataset accoppiato durante l'addestramento.

English

Significant progress has recently been made in creative applications of large pre-trained models for downstream tasks in 3D vision, such as text-to-shape generation. This motivates our investigation of how these pre-trained models can be used effectively to generate 3D shapes from sketches, which has largely remained an open challenge due to the limited sketch-shape paired datasets and the varying level of abstraction in the sketches. We discover that conditioning a 3D generative model on the features (obtained from a frozen large pre-trained vision model) of synthetic renderings during training enables us to effectively generate 3D shapes from sketches at inference time. This suggests that the large pre-trained vision model features carry semantic signals that are resilient to domain shifts, i.e., allowing us to use only RGB renderings, but generalizing to sketches at inference time. We conduct a comprehensive set of experiments investigating different design factors and demonstrate the effectiveness of our straightforward approach for generation of multiple 3D shapes per each input sketch regardless of their level of abstraction without requiring any paired datasets during training.

Sketch-A-Shape: Generazione di Forme 3D da Schizzi in Modalità Zero-Shot

Sketch-A-Shape: Zero-Shot Sketch-to-3D Shape Generation

Abstract

Support