ChatPaper.aiChatPaper

Sketch-A-Shape: Null-Shot-Sketching zur 3D-Formgenerierung

Sketch-A-Shape: Zero-Shot Sketch-to-3D Shape Generation

July 8, 2023
Autoren: Aditya Sanghi, Pradeep Kumar Jayaraman, Arianna Rampini, Joseph Lambourne, Hooman Shayani, Evan Atherton, Saeid Asgari Taghanaki
cs.AI

Zusammenfassung

In jüngster Zeit wurden bedeutende Fortschritte bei kreativen Anwendungen großer vortrainierter Modelle für nachgelagerte Aufgaben in der 3D-Vision erzielt, wie beispielsweise bei der Text-zu-Form-Generierung. Dies motiviert unsere Untersuchung, wie diese vortrainierten Modelle effektiv genutzt werden können, um 3D-Formen aus Skizzen zu generieren, was weitgehend eine offene Herausforderung bleibt, insbesondere aufgrund der begrenzten Verfügbarkeit von gepaarten Skizzen-Form-Datensätzen und der unterschiedlichen Abstraktionsniveaus in den Skizzen. Wir entdecken, dass die Konditionierung eines 3D-Generierungsmodells auf die Merkmale (gewonnen aus einem eingefrorenen großen vortrainierten Vision-Modell) von synthetischen Renderings während des Trainings es uns ermöglicht, effektiv 3D-Formen aus Skizzen zur Inferenzzeit zu generieren. Dies deutet darauf hin, dass die Merkmale des großen vortrainierten Vision-Modells semantische Signale tragen, die gegenüber Domänenverschiebungen robust sind, d.h., sie erlauben es uns, nur RGB-Renderings zu verwenden, aber dennoch zur Inferenzzeit auf Skizzen zu verallgemeinern. Wir führen eine umfassende Reihe von Experimenten durch, in denen wir verschiedene Designfaktoren untersuchen, und demonstrieren die Effektivität unseres einfachen Ansatzes zur Generierung mehrerer 3D-Formen pro Eingabeskizze, unabhängig von deren Abstraktionsniveau, ohne dass während des Trainings gepaarte Datensätze erforderlich sind.
English
Significant progress has recently been made in creative applications of large pre-trained models for downstream tasks in 3D vision, such as text-to-shape generation. This motivates our investigation of how these pre-trained models can be used effectively to generate 3D shapes from sketches, which has largely remained an open challenge due to the limited sketch-shape paired datasets and the varying level of abstraction in the sketches. We discover that conditioning a 3D generative model on the features (obtained from a frozen large pre-trained vision model) of synthetic renderings during training enables us to effectively generate 3D shapes from sketches at inference time. This suggests that the large pre-trained vision model features carry semantic signals that are resilient to domain shifts, i.e., allowing us to use only RGB renderings, but generalizing to sketches at inference time. We conduct a comprehensive set of experiments investigating different design factors and demonstrate the effectiveness of our straightforward approach for generation of multiple 3D shapes per each input sketch regardless of their level of abstraction without requiring any paired datasets during training.
PDF231December 15, 2024