ChatPaper.aiChatPaper

Geometrie-Gestuurd Reinforcement Learning voor Multi-view Consistente 3D-scènebewerking

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

March 3, 2026
Auteurs: Jiyuan Wang, Chunyu Lin, Lei Sun, Zhi Cao, Yuyang Yin, Lang Nie, Zhenlong Yuan, Xiangxiang Chu, Yunchao Wei, Kang Liao, Guosheng Lin
cs.AI

Samenvatting

Het benutten van de voorkennis van 2D-diffusiemodellen voor 3D-bewerking is een veelbelovend paradigma geworden. Het handhaven van multi-viewconsistentie in bewerkte resultaten blijft echter een uitdaging, en de extreme schaarste aan gepaarde 3D-consistente bewerkingsdata maakt supervised fine-tuning (SFT) – de meest effectieve trainingsstrategie voor bewerkingstaken – onhaalbaar. In dit artikel observeren we dat, hoewel het genereren van multi-view consistente 3D-inhoud zeer uitdagend is, het verifiëren van 3D-consistentie wel goed mogelijk is, wat reinforcement learning (RL) natuurlijk positioneert als een haalbare oplossing. Gemotiveerd door dit inzicht stellen we RL3DEdit voor, een single-pass framework aangedreven door RL-optimalisatie met nieuwe beloningssignalen afkomstig van het 3D-foundationmodel VGGT. Concreet benutten we de robuuste voorkennis van VGGT, geleerd uit enorme hoeveelheden real-world data, voeren de bewerkte afbeeldingen in, en gebruiken de uitvoerbetrouwbaarheidskaarten en pose-schattingfouten als beloningssignalen. Hierdoor worden de 2D-bewerkingspriors effectief verankerd op een 3D-consistente manifold via RL. Uitgebreide experimenten tonen aan dat RL3DEdit stabiele multi-viewconsistentie bereikt en state-of-the-art methoden overtreft in bewerkingskwaliteit met hoge efficiëntie. Om de ontwikkeling van 3D-bewerking te bevorderen, zullen we de code en het model vrijgeven.
English
Leveraging the priors of 2D diffusion models for 3D editing has emerged as a promising paradigm. However, maintaining multi-view consistency in edited results remains challenging, and the extreme scarcity of 3D-consistent editing paired data renders supervised fine-tuning (SFT), the most effective training strategy for editing tasks, infeasible. In this paper, we observe that, while generating multi-view consistent 3D content is highly challenging, verifying 3D consistency is tractable, naturally positioning reinforcement learning (RL) as a feasible solution. Motivated by this, we propose RL3DEdit, a single-pass framework driven by RL optimization with novel rewards derived from the 3D foundation model, VGGT. Specifically, we leverage VGGT's robust priors learned from massive real-world data, feed the edited images, and utilize the output confidence maps and pose estimation errors as reward signals, effectively anchoring the 2D editing priors onto a 3D-consistent manifold via RL. Extensive experiments demonstrate that RL3DEdit achieves stable multi-view consistency and outperforms state-of-the-art methods in editing quality with high efficiency. To promote the development of 3D editing, we will release the code and model.
PDF1448March 26, 2026