Geometrie-Gestuurd Reinforcement Learning voor Multi-view Consistente 3D-scènebewerking

Samenvatting

Het benutten van de voorkennis van 2D-diffusiemodellen voor 3D-bewerking is een veelbelovend paradigma geworden. Het handhaven van multi-viewconsistentie in bewerkte resultaten blijft echter een uitdaging, en de extreme schaarste aan gepaarde 3D-consistente bewerkingsdata maakt supervised fine-tuning (SFT) – de meest effectieve trainingsstrategie voor bewerkingstaken – onhaalbaar. In dit artikel observeren we dat, hoewel het genereren van multi-view consistente 3D-inhoud zeer uitdagend is, het verifiëren van 3D-consistentie wel goed mogelijk is, wat reinforcement learning (RL) natuurlijk positioneert als een haalbare oplossing. Gemotiveerd door dit inzicht stellen we RL3DEdit voor, een single-pass framework aangedreven door RL-optimalisatie met nieuwe beloningssignalen afkomstig van het 3D-foundationmodel VGGT. Concreet benutten we de robuuste voorkennis van VGGT, geleerd uit enorme hoeveelheden real-world data, voeren de bewerkte afbeeldingen in, en gebruiken de uitvoerbetrouwbaarheidskaarten en pose-schattingfouten als beloningssignalen. Hierdoor worden de 2D-bewerkingspriors effectief verankerd op een 3D-consistente manifold via RL. Uitgebreide experimenten tonen aan dat RL3DEdit stabiele multi-viewconsistentie bereikt en state-of-the-art methoden overtreft in bewerkingskwaliteit met hoge efficiëntie. Om de ontwikkeling van 3D-bewerking te bevorderen, zullen we de code en het model vrijgeven.

English

Leveraging the priors of 2D diffusion models for 3D editing has emerged as a promising paradigm. However, maintaining multi-view consistency in edited results remains challenging, and the extreme scarcity of 3D-consistent editing paired data renders supervised fine-tuning (SFT), the most effective training strategy for editing tasks, infeasible. In this paper, we observe that, while generating multi-view consistent 3D content is highly challenging, verifying 3D consistency is tractable, naturally positioning reinforcement learning (RL) as a feasible solution. Motivated by this, we propose RL3DEdit, a single-pass framework driven by RL optimization with novel rewards derived from the 3D foundation model, VGGT. Specifically, we leverage VGGT's robust priors learned from massive real-world data, feed the edited images, and utilize the output confidence maps and pose estimation errors as reward signals, effectively anchoring the 2D editing priors onto a 3D-consistent manifold via RL. Extensive experiments demonstrate that RL3DEdit achieves stable multi-view consistency and outperforms state-of-the-art methods in editing quality with high efficiency. To promote the development of 3D editing, we will release the code and model.

Geometrie-Gestuurd Reinforcement Learning voor Multi-view Consistente 3D-scènebewerking

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

Samenvatting

Support