RewardSDS: 보상 가중치 샘플링을 통한 점수 증류 정렬
RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling
March 12, 2025
저자: Itay Chachy, Guy Yariv, Sagie Benaim
cs.AI
초록
Score Distillation Sampling(SDS)은 텍스트-3D 생성과 같은 작업에 2D 확산 사전 지식을 활용하기 위한 효과적인 기술로 부상했습니다. 강력한 성능을 지녔음에도 SDS는 사용자 의도와의 세밀한 정렬을 달성하는 데 어려움을 겪습니다. 이를 극복하기 위해 우리는 RewardSDS라는 새로운 접근 방식을 제안합니다. 이 방법은 보상 모델의 정렬 점수를 기반으로 노이즈 샘플에 가중치를 부여하여 가중 SDS 손실을 생성합니다. 이 손실은 정렬된 높은 보상 출력을 생성하는 노이즈 샘플의 그래디언트를 우선시합니다. 우리의 접근 방식은 광범위하게 적용 가능하며 SDS 기반 방법을 확장할 수 있습니다. 특히, 우리는 RewardVSD를 도입하여 Variational Score Distillation(VSD)에 대한 적용 가능성을 입증합니다. 우리는 RewardSDS와 RewardVSD를 텍스트-이미지, 2D 편집, 텍스트-3D 생성 작업에 대해 평가하며, 생성 품질과 원하는 보상 모델과의 정렬을 측정하는 다양한 지표에서 SDS와 VSD 대비 상당한 개선을 보여주어 최첨단 성능을 달성했습니다. 프로젝트 페이지는 https://itaychachy.github.io/reward-sds/에서 확인할 수 있습니다.
English
Score Distillation Sampling (SDS) has emerged as an effective technique for
leveraging 2D diffusion priors for tasks such as text-to-3D generation. While
powerful, SDS struggles with achieving fine-grained alignment to user intent.
To overcome this, we introduce RewardSDS, a novel approach that weights noise
samples based on alignment scores from a reward model, producing a weighted SDS
loss. This loss prioritizes gradients from noise samples that yield aligned
high-reward output. Our approach is broadly applicable and can extend SDS-based
methods. In particular, we demonstrate its applicability to Variational Score
Distillation (VSD) by introducing RewardVSD. We evaluate RewardSDS and
RewardVSD on text-to-image, 2D editing, and text-to-3D generation tasks,
showing significant improvements over SDS and VSD on a diverse set of metrics
measuring generation quality and alignment to desired reward models, enabling
state-of-the-art performance. Project page is available at https://itaychachy.
github.io/reward-sds/.Summary
AI-Generated Summary