DSO: 物理的な健全性を確保するためのシミュレーションフィードバックによる3D生成器の整合
DSO: Aligning 3D Generators with Simulation Feedback for Physical Soundness
March 28, 2025
著者: Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi
cs.AI
要旨
ほとんどの3Dオブジェクト生成器は美的品質に焦点を当てており、アプリケーションに必要な物理的制約をしばしば無視しています。そのような制約の一つは、3Dオブジェクトが自己支持性を持つこと、つまり重力下でバランスを保つことです。安定した3Dオブジェクトを生成するための従来のアプローチでは、微分可能な物理シミュレータを使用してテスト時に幾何学を最適化していましたが、これは遅く、不安定で、局所最適に陥りやすいものでした。生成モデルを外部フィードバックに整合させる研究に着想を得て、我々はDirect Simulation Optimization(DSO)というフレームワークを提案します。これは、(微分不可能な)シミュレータからのフィードバックを使用して、3D生成器が直接安定した3Dオブジェクトを出力する確率を高めるものです。我々は、物理シミュレータから得られた安定性スコアでラベル付けされた3Dオブジェクトのデータセットを構築します。その後、安定性スコアを整合指標として使用し、直接選好最適化(DPO)または直接報酬最適化(DRO)という新しい目的関数を用いて3D生成器を微調整します。DROは、ペアワイズ選好を必要とせずに拡散モデルを整合させるために我々が導入した新しい目的関数です。実験結果は、DPOまたはDRO目的関数を使用して微調整されたフィードフォワード生成器が、テスト時の最適化よりもはるかに高速で、安定したオブジェクトを生成する可能性が高いことを示しています。特に、DSOフレームワークは、トレーニング用の真の3Dオブジェクトがなくても機能し、3D生成器が自身の出力に対するシミュレーションフィードバックを自動的に収集することで自己改善を可能にします。
English
Most 3D object generators focus on aesthetic quality, often neglecting
physical constraints necessary in applications. One such constraint is that the
3D object should be self-supporting, i.e., remains balanced under gravity.
Prior approaches to generating stable 3D objects used differentiable physics
simulators to optimize geometry at test-time, which is slow, unstable, and
prone to local optima. Inspired by the literature on aligning generative models
to external feedback, we propose Direct Simulation Optimization (DSO), a
framework to use the feedback from a (non-differentiable) simulator to increase
the likelihood that the 3D generator outputs stable 3D objects directly. We
construct a dataset of 3D objects labeled with a stability score obtained from
the physics simulator. We can then fine-tune the 3D generator using the
stability score as the alignment metric, via direct preference optimization
(DPO) or direct reward optimization (DRO), a novel objective, which we
introduce, to align diffusion models without requiring pairwise preferences.
Our experiments show that the fine-tuned feed-forward generator, using either
DPO or DRO objective, is much faster and more likely to produce stable objects
than test-time optimization. Notably, the DSO framework works even without any
ground-truth 3D objects for training, allowing the 3D generator to self-improve
by automatically collecting simulation feedback on its own outputs.