Sketch-A-Shape: Geração de Formas 3D a Partir de Esboços em Zero-Shot
Sketch-A-Shape: Zero-Shot Sketch-to-3D Shape Generation
July 8, 2023
Autores: Aditya Sanghi, Pradeep Kumar Jayaraman, Arianna Rampini, Joseph Lambourne, Hooman Shayani, Evan Atherton, Saeid Asgari Taghanaki
cs.AI
Resumo
Progressos significativos foram recentemente alcançados em aplicações criativas de modelos pré-treinados de grande escala para tarefas subsequentes em visão 3D, como a geração de formas a partir de texto. Isso motiva nossa investigação sobre como esses modelos pré-treinados podem ser usados de forma eficaz para gerar formas 3D a partir de esboços, o que permaneceu em grande parte um desafio aberto devido à escassez de conjuntos de dados pareados de esboço-forma e ao nível variável de abstração nos esboços. Descobrimos que condicionar um modelo generativo 3D nas características (obtidas de um modelo de visão pré-treinado de grande escala congelado) de renderizações sintéticas durante o treinamento nos permite gerar efetivamente formas 3D a partir de esboços no momento da inferência. Isso sugere que as características do modelo de visão pré-treinado de grande escala carregam sinais semânticos que são resilientes a mudanças de domínio, ou seja, permitindo-nos usar apenas renderizações RGB, mas generalizando para esboços no momento da inferência. Realizamos um conjunto abrangente de experimentos investigando diferentes fatores de projeto e demonstramos a eficácia de nossa abordagem direta para a geração de múltiplas formas 3D para cada esboço de entrada, independentemente de seu nível de abstração, sem exigir nenhum conjunto de dados pareado durante o treinamento.
English
Significant progress has recently been made in creative applications of large
pre-trained models for downstream tasks in 3D vision, such as text-to-shape
generation. This motivates our investigation of how these pre-trained models
can be used effectively to generate 3D shapes from sketches, which has largely
remained an open challenge due to the limited sketch-shape paired datasets and
the varying level of abstraction in the sketches. We discover that conditioning
a 3D generative model on the features (obtained from a frozen large pre-trained
vision model) of synthetic renderings during training enables us to effectively
generate 3D shapes from sketches at inference time. This suggests that the
large pre-trained vision model features carry semantic signals that are
resilient to domain shifts, i.e., allowing us to use only RGB renderings, but
generalizing to sketches at inference time. We conduct a comprehensive set of
experiments investigating different design factors and demonstrate the
effectiveness of our straightforward approach for generation of multiple 3D
shapes per each input sketch regardless of their level of abstraction without
requiring any paired datasets during training.