DSO: 물리적 타당성을 위한 시뮬레이션 피드백과 3D 생성기 정렬
DSO: Aligning 3D Generators with Simulation Feedback for Physical Soundness
March 28, 2025
저자: Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi
cs.AI
초록
대부분의 3D 객체 생성기는 미적 품질에 초점을 맞추며, 실제 응용에서 필요한 물리적 제약 조건을 종종 간과합니다. 이러한 제약 조건 중 하나는 3D 객체가 자체적으로 지지되어야 한다는 것, 즉 중력 하에서 균형을 유지해야 한다는 것입니다. 안정적인 3D 객체를 생성하기 위한 기존 접근법은 미분 가능한 물리 시뮬레이터를 사용하여 테스트 시간에 기하학을 최적화하는 방식이었는데, 이는 느리고 불안정하며 지역 최적점에 빠지기 쉬운 문제가 있었습니다. 생성 모델을 외부 피드백에 맞추는 문헌에서 영감을 받아, 우리는 (미분 불가능한) 시뮬레이터의 피드백을 활용하여 3D 생성기가 직접 안정적인 3D 객체를 출력할 가능성을 높이는 Direct Simulation Optimization (DSO) 프레임워크를 제안합니다. 우리는 물리 시뮬레이터로부터 얻은 안정성 점수로 라벨링된 3D 객체 데이터셋을 구축합니다. 그런 다음, 안정성 점수를 정렬 메트릭으로 사용하여 3D 생성기를 미세 조정할 수 있으며, 이를 위해 직접 선호 최적화(DPO) 또는 우리가 소개한 새로운 목적 함수인 직접 보상 최적화(DRO)를 사용합니다. DRO는 쌍별 선호도 없이도 확산 모델을 정렬할 수 있습니다. 우리의 실험 결과, DPO 또는 DRO 목적 함수를 사용하여 미세 조정된 피드포워드 생성기는 테스트 시간 최적화보다 훨씬 빠르고 안정적인 객체를 생성할 가능성이 높음을 보여줍니다. 특히, DSO 프레임워크는 훈련을 위한 실제 3D 객체 없이도 작동하며, 3D 생성기가 자체 출력에 대한 시뮬레이션 피드백을 자동으로 수집하여 스스로 개선할 수 있도록 합니다.
English
Most 3D object generators focus on aesthetic quality, often neglecting
physical constraints necessary in applications. One such constraint is that the
3D object should be self-supporting, i.e., remains balanced under gravity.
Prior approaches to generating stable 3D objects used differentiable physics
simulators to optimize geometry at test-time, which is slow, unstable, and
prone to local optima. Inspired by the literature on aligning generative models
to external feedback, we propose Direct Simulation Optimization (DSO), a
framework to use the feedback from a (non-differentiable) simulator to increase
the likelihood that the 3D generator outputs stable 3D objects directly. We
construct a dataset of 3D objects labeled with a stability score obtained from
the physics simulator. We can then fine-tune the 3D generator using the
stability score as the alignment metric, via direct preference optimization
(DPO) or direct reward optimization (DRO), a novel objective, which we
introduce, to align diffusion models without requiring pairwise preferences.
Our experiments show that the fine-tuned feed-forward generator, using either
DPO or DRO objective, is much faster and more likely to produce stable objects
than test-time optimization. Notably, the DSO framework works even without any
ground-truth 3D objects for training, allowing the 3D generator to self-improve
by automatically collecting simulation feedback on its own outputs.Summary
AI-Generated Summary