Sketch-A-Shape: Генерация 3D-форм по эскизам в режиме нулевого сэмплирования
Sketch-A-Shape: Zero-Shot Sketch-to-3D Shape Generation
July 8, 2023
Авторы: Aditya Sanghi, Pradeep Kumar Jayaraman, Arianna Rampini, Joseph Lambourne, Hooman Shayani, Evan Atherton, Saeid Asgari Taghanaki
cs.AI
Аннотация
В последнее время был достигнут значительный прогресс в творческих приложениях крупных предобученных моделей для задач в области 3D-видения, таких как генерация форм из текста. Это мотивирует наше исследование того, как эти предобученные модели могут быть эффективно использованы для генерации 3D-форм из эскизов, что до сих пор оставалось открытой проблемой из-за ограниченного количества парных наборов данных "эскиз-форма" и различного уровня абстракции в эскизах. Мы обнаружили, что использование признаков (полученных из замороженной крупной предобученной модели зрения) синтетических рендеров в качестве условия для 3D-генеративной модели во время обучения позволяет эффективно генерировать 3D-формы из эскизов на этапе вывода. Это говорит о том, что признаки крупной предобученной модели зрения содержат семантические сигналы, устойчивые к сдвигам доменов, то есть позволяют использовать только RGB-рендеры, но обобщать на эскизы на этапе вывода. Мы проводим всесторонний набор экспериментов, исследующих различные факторы проектирования, и демонстрируем эффективность нашего простого подхода для генерации нескольких 3D-форм для каждого входного эскиза независимо от их уровня абстракции, не требуя парных наборов данных во время обучения.
English
Significant progress has recently been made in creative applications of large
pre-trained models for downstream tasks in 3D vision, such as text-to-shape
generation. This motivates our investigation of how these pre-trained models
can be used effectively to generate 3D shapes from sketches, which has largely
remained an open challenge due to the limited sketch-shape paired datasets and
the varying level of abstraction in the sketches. We discover that conditioning
a 3D generative model on the features (obtained from a frozen large pre-trained
vision model) of synthetic renderings during training enables us to effectively
generate 3D shapes from sketches at inference time. This suggests that the
large pre-trained vision model features carry semantic signals that are
resilient to domain shifts, i.e., allowing us to use only RGB renderings, but
generalizing to sketches at inference time. We conduct a comprehensive set of
experiments investigating different design factors and demonstrate the
effectiveness of our straightforward approach for generation of multiple 3D
shapes per each input sketch regardless of their level of abstraction without
requiring any paired datasets during training.