Геометрически направленное обучение с подкреплением для многовидового согласованного редактирования 3D-сцен
Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing
March 3, 2026
Авторы: Jiyuan Wang, Chunyu Lin, Lei Sun, Zhi Cao, Yuyang Yin, Lang Nie, Zhenlong Yuan, Xiangxiang Chu, Yunchao Wei, Kang Liao, Guosheng Lin
cs.AI
Аннотация
Использование априорных знаний 2D диффузионных моделей для 3D-редактирования стало перспективной парадигмой. Однако сохранение многовидовой согласованности в редактируемых результатах остается сложной задачей, а крайняя нехватка парных данных для 3D-согласованного редактирования делает невозможным применение контролируемой тонкой настройки (SFT) — наиболее эффективной стратегии обучения для задач редактирования. В данной работе мы отмечаем, что хотя генерация многовидово согласованного 3D-контента является чрезвычайно сложной, проверка 3D-согласованности осуществима, что естественным образом позиционирует обучение с подкреплением (RL) в качестве feasible решения. Руководствуясь этим, мы предлагаем RL3DEdit — однопроходную framework, управляемую RL-оптимизацией с новыми функциями вознаграждения, полученными от 3D-фундаментальной модели VGGT. В частности, мы используем надежные априорные знания VGGT, полученные на основе массовых реальных данных, подаем редактируемые изображения и используем выходные карты уверенности и ошибки оценки позы в качестве сигналов вознаграждения, эффективно anchoring априорные знания 2D-редактирования на 3D-согласованное многообразие посредством RL. Многочисленные эксперименты демонстрируют, что RL3DEdit достигает стабильной многовидовой согласованности и превосходит современные методы по качеству редактирования с высокой эффективностью. Для содействия развитию 3D-редактирования мы опубликуем код и модель.
English
Leveraging the priors of 2D diffusion models for 3D editing has emerged as a promising paradigm. However, maintaining multi-view consistency in edited results remains challenging, and the extreme scarcity of 3D-consistent editing paired data renders supervised fine-tuning (SFT), the most effective training strategy for editing tasks, infeasible. In this paper, we observe that, while generating multi-view consistent 3D content is highly challenging, verifying 3D consistency is tractable, naturally positioning reinforcement learning (RL) as a feasible solution. Motivated by this, we propose RL3DEdit, a single-pass framework driven by RL optimization with novel rewards derived from the 3D foundation model, VGGT. Specifically, we leverage VGGT's robust priors learned from massive real-world data, feed the edited images, and utilize the output confidence maps and pose estimation errors as reward signals, effectively anchoring the 2D editing priors onto a 3D-consistent manifold via RL. Extensive experiments demonstrate that RL3DEdit achieves stable multi-view consistency and outperforms state-of-the-art methods in editing quality with high efficiency. To promote the development of 3D editing, we will release the code and model.