Sketch-A-Shape: ゼロショットスケッチから3D形状生成
Sketch-A-Shape: Zero-Shot Sketch-to-3D Shape Generation
July 8, 2023
著者: Aditya Sanghi, Pradeep Kumar Jayaraman, Arianna Rampini, Joseph Lambourne, Hooman Shayani, Evan Atherton, Saeid Asgari Taghanaki
cs.AI
要旨
近年、テキストから形状を生成するなど、3Dビジョンにおける下流タスクへの大規模事前学習モデルの創造的な応用が大きく進展しています。これを受けて、私たちはこれらの事前学習モデルを活用してスケッチから3D形状を効果的に生成する方法について調査を行いました。この課題は、スケッチと形状のペアデータセットが限られていることや、スケッチの抽象度が多様であることから、これまで未解決のままでした。私たちは、トレーニング中に合成レンダリングの特徴(凍結された大規模事前学習ビジョンモデルから得られたもの)を条件付けすることで、推論時にスケッチから3D形状を効果的に生成できることを発見しました。これは、大規模事前学習ビジョンモデルの特徴がドメインシフトに対して頑健な意味信号を持っていることを示唆しており、つまり、RGBレンダリングのみを使用しながらも、推論時にスケッチに一般化できることを意味します。私たちは、さまざまな設計要素を調査する包括的な実験を行い、トレーニング中にペアデータセットを必要とせず、抽象度に関係なく各入力スケッチに対して複数の3D形状を生成するためのシンプルなアプローチの有効性を実証しました。
English
Significant progress has recently been made in creative applications of large
pre-trained models for downstream tasks in 3D vision, such as text-to-shape
generation. This motivates our investigation of how these pre-trained models
can be used effectively to generate 3D shapes from sketches, which has largely
remained an open challenge due to the limited sketch-shape paired datasets and
the varying level of abstraction in the sketches. We discover that conditioning
a 3D generative model on the features (obtained from a frozen large pre-trained
vision model) of synthetic renderings during training enables us to effectively
generate 3D shapes from sketches at inference time. This suggests that the
large pre-trained vision model features carry semantic signals that are
resilient to domain shifts, i.e., allowing us to use only RGB renderings, but
generalizing to sketches at inference time. We conduct a comprehensive set of
experiments investigating different design factors and demonstrate the
effectiveness of our straightforward approach for generation of multiple 3D
shapes per each input sketch regardless of their level of abstraction without
requiring any paired datasets during training.