Reinforcement Learning Guidato dalla Geometria per l'Editing 3D di Scene con Consistenza Multi-vista
Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing
March 3, 2026
Autori: Jiyuan Wang, Chunyu Lin, Lei Sun, Zhi Cao, Yuyang Yin, Lang Nie, Zhenlong Yuan, Xiangxiang Chu, Yunchao Wei, Kang Liao, Guosheng Lin
cs.AI
Abstract
Lo sfruttamento dei preconcetti dei modelli di diffusione 2D per l'editing 3D è emerso come un paradigma promettente. Tuttavia, mantenere la coerenza multi-vista nei risultati editati rimane una sfida, e l'estrema scarsità di dati accoppiati per l'editing 3D consistente rende impraticabile il fine-tuning supervisionato (SFT), la strategia di addestramento più efficace per i task di editing. In questo articolo, osserviamo che, sebbene la generazione di contenuti 3D multi-vista coerenti sia altamente complessa, la verifica della coerenza 3D è trattabile, posizionando naturalmente l'apprendimento per rinforzo (RL) come una soluzione fattibile. Motivati da ciò, proponiamo RL3DEdit, un framework a passaggio singolo guidato dall'ottimizzazione RL con ricompense derivate dal modello fondazionale 3D, VGGT. Nello specifico, sfruttiamo i robusti preconcetti appresi da VGGT tramite dati massicci del mondo reale, alimentiamo le immagini modificate e utilizziamo le mappe di confidenza in output e gli errori di stima della posa come segnali di ricompensa, ancorando efficacemente i preconcetti dell'editing 2D su una varietà 3D coerente tramite RL. Esperimenti estensivi dimostrano che RL3DEdit raggiunge una stabile coerenza multi-vista e supera i metodi allo stato dell'arte in qualità di editing con alta efficienza. Per promuovere lo sviluppo dell'editing 3D, rilasceremo il codice e il modello.
English
Leveraging the priors of 2D diffusion models for 3D editing has emerged as a promising paradigm. However, maintaining multi-view consistency in edited results remains challenging, and the extreme scarcity of 3D-consistent editing paired data renders supervised fine-tuning (SFT), the most effective training strategy for editing tasks, infeasible. In this paper, we observe that, while generating multi-view consistent 3D content is highly challenging, verifying 3D consistency is tractable, naturally positioning reinforcement learning (RL) as a feasible solution. Motivated by this, we propose RL3DEdit, a single-pass framework driven by RL optimization with novel rewards derived from the 3D foundation model, VGGT. Specifically, we leverage VGGT's robust priors learned from massive real-world data, feed the edited images, and utilize the output confidence maps and pose estimation errors as reward signals, effectively anchoring the 2D editing priors onto a 3D-consistent manifold via RL. Extensive experiments demonstrate that RL3DEdit achieves stable multi-view consistency and outperforms state-of-the-art methods in editing quality with high efficiency. To promote the development of 3D editing, we will release the code and model.