Geometriegeführtes Reinforcement Learning für multiview-konsistente 3D-Szenenbearbeitung
Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing
March 3, 2026
Autoren: Jiyuan Wang, Chunyu Lin, Lei Sun, Zhi Cao, Yuyang Yin, Lang Nie, Zhenlong Yuan, Xiangxiang Chu, Yunchao Wei, Kang Liao, Guosheng Lin
cs.AI
Zusammenfassung
Die Nutzung von Priori-Wissen aus 2D-Diffusionsmodellen für 3D-Bearbeitung hat sich als vielversprechendes Paradigma erwiesen. Allerdings bleibt die Gewährleistung multiview-konsistenter Bearbeitungsergebnisse eine Herausforderung, und die extreme Knappheit an gepaarten 3D-konsistenten Bearbeitungsdaten macht Supervised Fine-Tuning (SFT) – die effektivste Trainingsstrategie für Bearbeitungsaufgaben – undurchführbar. In dieser Arbeit stellen wir fest, dass zwar die Generierung multiview-konsistenter 3D-Inhalte äußerst schwierig ist, die Überprüfung der 3D-Konsistenz jedoch handhabbar bleibt, was Reinforcement Learning (RL) natürlich als praktikable Lösung positioniert. Darauf aufbauend schlagen wir RL3DEdit vor, ein Single-Pass-Framework, das durch RL-Optimierung mit neuartigen Belohnungssignalen des 3D-Foundation-Modells VGGT angetrieben wird. Konkret nutzen wir die robusten Priori-Informationen von VGGT, die aus umfangreichen realen Daten gelernt wurden, speisen die bearbeiteten Bilder ein und verwenden die Ausgabekonfidenzkarten sowie Pose-Schätzfehler als Belohnungssignale, um die 2D-Bearbeitungspriorien effektiv über RL auf eine 3D-konsistente Mannigfaltigkeit zu verankern. Umfangreiche Experimente zeigen, dass RL3DEdit stabile Multiview-Konsistenz erreicht und state-of-the-art Methoden in Bearbeitungsqualität bei hoher Effizienz übertrifft. Zur Förderung der 3D-Bearbeitungsforschung werden wir den Code und das Modell veröffentlichen.
English
Leveraging the priors of 2D diffusion models for 3D editing has emerged as a promising paradigm. However, maintaining multi-view consistency in edited results remains challenging, and the extreme scarcity of 3D-consistent editing paired data renders supervised fine-tuning (SFT), the most effective training strategy for editing tasks, infeasible. In this paper, we observe that, while generating multi-view consistent 3D content is highly challenging, verifying 3D consistency is tractable, naturally positioning reinforcement learning (RL) as a feasible solution. Motivated by this, we propose RL3DEdit, a single-pass framework driven by RL optimization with novel rewards derived from the 3D foundation model, VGGT. Specifically, we leverage VGGT's robust priors learned from massive real-world data, feed the edited images, and utilize the output confidence maps and pose estimation errors as reward signals, effectively anchoring the 2D editing priors onto a 3D-consistent manifold via RL. Extensive experiments demonstrate that RL3DEdit achieves stable multi-view consistency and outperforms state-of-the-art methods in editing quality with high efficiency. To promote the development of 3D editing, we will release the code and model.