ChatPaper.aiChatPaper

기하학 기반 강화 학습을 통한 다중 뷰 일관적 3D 장면 편집

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

March 3, 2026
저자: Jiyuan Wang, Chunyu Lin, Lei Sun, Zhi Cao, Yuyang Yin, Lang Nie, Zhenlong Yuan, Xiangxiang Chu, Yunchao Wei, Kang Liao, Guosheng Lin
cs.AI

초록

2D 확산 모델의 사전 지식을 3D 편집에 활용하는 것은 유망한 패러다임으로 부상했습니다. 그러나 편집 결과의 다중 뷰 일관성을 유지하는 것은 여전히 어려운 과제이며, 3D 일관성 편집 페어 데이터의 극심한 부족으로 편집 작업에 가장 효과적인 훈련 전략인 지도 미세 조정(SFT)의 적용이 불가능한 실정입니다. 본 논문에서는 다중 뷰 일관적인 3D 콘텐츠 생성은 매우 어려운 반면, 3D 일관성 검증은 비교적 용이하다는 점에 주목하여 이를 강화 학습(RL)의 실현 가능한 해결책으로 자연스럽게 위치시킵니다. 이에 동기를 부여받아 우리는 3D 기초 모델 VGGT에서 도출된 새로운 보상으로 강화 학습 최적화를 통해 구동되는 단일 패스 프레임워크인 RL3DEdit을 제안합니다. 구체적으로, 우리는 VGGT가 대규모 실제 데이터로부터 학습한 강력한 사전 지식을 활용하여 편집된 이미지를 입력하고, 출력된 신뢰도 맵과 포즈 추정 오차를 보상 신호로 활용함으로써 2D 편집 사전 지식을 강화 학습을 통해 3D 일관성 매니폴드에 효과적으로 정착시킵니다. 폭넓은 실험을 통해 RL3DEdit이 안정적인 다중 뷰 일관성을 달성하고 높은 효율성으로 최신 편집 방법들보다 우수한 편집 품질을 보여줌을 입증합니다. 3D 편집 기술 발전을 위해 코드와 모델을 공개할 예정입니다.
English
Leveraging the priors of 2D diffusion models for 3D editing has emerged as a promising paradigm. However, maintaining multi-view consistency in edited results remains challenging, and the extreme scarcity of 3D-consistent editing paired data renders supervised fine-tuning (SFT), the most effective training strategy for editing tasks, infeasible. In this paper, we observe that, while generating multi-view consistent 3D content is highly challenging, verifying 3D consistency is tractable, naturally positioning reinforcement learning (RL) as a feasible solution. Motivated by this, we propose RL3DEdit, a single-pass framework driven by RL optimization with novel rewards derived from the 3D foundation model, VGGT. Specifically, we leverage VGGT's robust priors learned from massive real-world data, feed the edited images, and utilize the output confidence maps and pose estimation errors as reward signals, effectively anchoring the 2D editing priors onto a 3D-consistent manifold via RL. Extensive experiments demonstrate that RL3DEdit achieves stable multi-view consistency and outperforms state-of-the-art methods in editing quality with high efficiency. To promote the development of 3D editing, we will release the code and model.
PDF1211March 12, 2026