Reforço de Aprendizagem Guiado por Geometria para Edição Consistente de Cenas 3D em Múltiplas Visualizações
Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing
March 3, 2026
Autores: Jiyuan Wang, Chunyu Lin, Lei Sun, Zhi Cao, Yuyang Yin, Lang Nie, Zhenlong Yuan, Xiangxiang Chu, Yunchao Wei, Kang Liao, Guosheng Lin
cs.AI
Resumo
A utilização de conhecimentos prévios de modelos de difusão 2D para edição 3D emergiu como um paradigma promissor. No entanto, manter a consistência multi-visão nos resultados editados permanece um desafio, e a extrema escassez de dados pareados de edição 3D consistentes torna inviável o ajuste fino supervisionado (SFT), a estratégia de treinamento mais eficaz para tarefas de edição. Neste artigo, observamos que, embora gerar conteúdo 3D com consistência multi-visão seja altamente desafiador, verificar a consistência 3D é tratável, posicionando naturalmente o aprendizado por reforço (RL) como uma solução viável. Motivados por isso, propomos o RL3DEdit, uma estrutura de passagem única orientada por otimização de RL com recompensas derivadas do modelo de fundamento 3D, VGGT. Especificamente, aproveitamos os conhecimentos robustos do VGGT aprendidos de dados massivos do mundo real, alimentamos as imagens editadas e utilizamos os mapas de confiança de saída e os erros de estimativa de pose como sinais de recompensa, ancorando efetivamente os conhecimentos prévios de edição 2D em uma variedade 3D consistente via RL. Experimentos extensivos demonstram que o RL3DEdit alcança consistência multi-visão estável e supera os métodos state-of-the-art em qualidade de edição com alta eficiência. Para promover o desenvolvimento da edição 3D, disponibilizaremos o código e o modelo.
English
Leveraging the priors of 2D diffusion models for 3D editing has emerged as a promising paradigm. However, maintaining multi-view consistency in edited results remains challenging, and the extreme scarcity of 3D-consistent editing paired data renders supervised fine-tuning (SFT), the most effective training strategy for editing tasks, infeasible. In this paper, we observe that, while generating multi-view consistent 3D content is highly challenging, verifying 3D consistency is tractable, naturally positioning reinforcement learning (RL) as a feasible solution. Motivated by this, we propose RL3DEdit, a single-pass framework driven by RL optimization with novel rewards derived from the 3D foundation model, VGGT. Specifically, we leverage VGGT's robust priors learned from massive real-world data, feed the edited images, and utilize the output confidence maps and pose estimation errors as reward signals, effectively anchoring the 2D editing priors onto a 3D-consistent manifold via RL. Extensive experiments demonstrate that RL3DEdit achieves stable multi-view consistency and outperforms state-of-the-art methods in editing quality with high efficiency. To promote the development of 3D editing, we will release the code and model.