Геометрически направленное обучение с подкреплением для многовидового согласованного редактирования 3D-сцен

Аннотация

Использование априорных знаний 2D диффузионных моделей для 3D-редактирования стало перспективной парадигмой. Однако сохранение многовидовой согласованности в редактируемых результатах остается сложной задачей, а крайняя нехватка парных данных для 3D-согласованного редактирования делает невозможным применение контролируемой тонкой настройки (SFT) — наиболее эффективной стратегии обучения для задач редактирования. В данной работе мы отмечаем, что хотя генерация многовидово согласованного 3D-контента является чрезвычайно сложной, проверка 3D-согласованности осуществима, что естественным образом позиционирует обучение с подкреплением (RL) в качестве feasible решения. Руководствуясь этим, мы предлагаем RL3DEdit — однопроходную framework, управляемую RL-оптимизацией с новыми функциями вознаграждения, полученными от 3D-фундаментальной модели VGGT. В частности, мы используем надежные априорные знания VGGT, полученные на основе массовых реальных данных, подаем редактируемые изображения и используем выходные карты уверенности и ошибки оценки позы в качестве сигналов вознаграждения, эффективно anchoring априорные знания 2D-редактирования на 3D-согласованное многообразие посредством RL. Многочисленные эксперименты демонстрируют, что RL3DEdit достигает стабильной многовидовой согласованности и превосходит современные методы по качеству редактирования с высокой эффективностью. Для содействия развитию 3D-редактирования мы опубликуем код и модель.

English

Leveraging the priors of 2D diffusion models for 3D editing has emerged as a promising paradigm. However, maintaining multi-view consistency in edited results remains challenging, and the extreme scarcity of 3D-consistent editing paired data renders supervised fine-tuning (SFT), the most effective training strategy for editing tasks, infeasible. In this paper, we observe that, while generating multi-view consistent 3D content is highly challenging, verifying 3D consistency is tractable, naturally positioning reinforcement learning (RL) as a feasible solution. Motivated by this, we propose RL3DEdit, a single-pass framework driven by RL optimization with novel rewards derived from the 3D foundation model, VGGT. Specifically, we leverage VGGT's robust priors learned from massive real-world data, feed the edited images, and utilize the output confidence maps and pose estimation errors as reward signals, effectively anchoring the 2D editing priors onto a 3D-consistent manifold via RL. Extensive experiments demonstrate that RL3DEdit achieves stable multi-view consistency and outperforms state-of-the-art methods in editing quality with high efficiency. To promote the development of 3D editing, we will release the code and model.

Геометрически направленное обучение с подкреплением для многовидового согласованного редактирования 3D-сцен

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

Аннотация

Support