Sketch-A-Shape: Generación de Formas 3D a partir de Bocetos con Enfoque Zero-Shot
Sketch-A-Shape: Zero-Shot Sketch-to-3D Shape Generation
July 8, 2023
Autores: Aditya Sanghi, Pradeep Kumar Jayaraman, Arianna Rampini, Joseph Lambourne, Hooman Shayani, Evan Atherton, Saeid Asgari Taghanaki
cs.AI
Resumen
Recientemente se han logrado avances significativos en aplicaciones creativas de modelos grandes preentrenados para tareas posteriores en visión 3D, como la generación de formas a partir de texto. Esto motiva nuestra investigación sobre cómo estos modelos preentrenados pueden utilizarse de manera efectiva para generar formas 3D a partir de bocetos, lo cual ha seguido siendo un desafío abierto debido a los conjuntos de datos limitados de pares boceto-forma y al nivel variable de abstracción en los bocetos. Descubrimos que condicionar un modelo generativo 3D con las características (obtenidas de un modelo de visión grande preentrenado y congelado) de representaciones sintéticas durante el entrenamiento nos permite generar efectivamente formas 3D a partir de bocetos en el momento de la inferencia. Esto sugiere que las características del modelo de visión grande preentrenado contienen señales semánticas que son resistentes a cambios de dominio, es decir, permitiéndonos usar únicamente representaciones RGB, pero generalizando a bocetos en el momento de la inferencia. Realizamos un conjunto exhaustivo de experimentos que investigan diferentes factores de diseño y demostramos la efectividad de nuestro enfoque directo para la generación de múltiples formas 3D por cada boceto de entrada, independientemente de su nivel de abstracción, sin requerir ningún conjunto de datos emparejado durante el entrenamiento.
English
Significant progress has recently been made in creative applications of large
pre-trained models for downstream tasks in 3D vision, such as text-to-shape
generation. This motivates our investigation of how these pre-trained models
can be used effectively to generate 3D shapes from sketches, which has largely
remained an open challenge due to the limited sketch-shape paired datasets and
the varying level of abstraction in the sketches. We discover that conditioning
a 3D generative model on the features (obtained from a frozen large pre-trained
vision model) of synthetic renderings during training enables us to effectively
generate 3D shapes from sketches at inference time. This suggests that the
large pre-trained vision model features carry semantic signals that are
resilient to domain shifts, i.e., allowing us to use only RGB renderings, but
generalizing to sketches at inference time. We conduct a comprehensive set of
experiments investigating different design factors and demonstrate the
effectiveness of our straightforward approach for generation of multiple 3D
shapes per each input sketch regardless of their level of abstraction without
requiring any paired datasets during training.