Renforcement de l'apprentissage par la géométrie pour l'édition cohérente de scènes 3D multi-vues

Résumé

L'exploitation des connaissances préalables des modèles de diffusion 2D pour l'édition 3D est apparue comme un paradigme prometteur. Cependant, maintenir la cohérence multi-vues dans les résultats édités reste difficile, et l'extrême rareté de données appariées d'édition 3D cohérente rend impossible le fine-tuning supervisé (SFT), la stratégie d'entraînement la plus efficace pour les tâches d'édition. Dans cet article, nous observons que, bien que générer du contenu 3D cohérent en multi-vues soit très complexe, vérifier la cohérence 3D est réalisable, positionnant naturellement l'apprentissage par renforcement (RL) comme une solution faisable. Motivés par cela, nous proposons RL3DEdit, un cadre monolithique piloté par une optimisation RL avec des récompenses novatrices dérivées du modèle de fondation 3D, VGGT. Concrètement, nous exploitons les connaissances préalables robustes de VGGT apprises à partir de données massives du monde réel, nous alimentons les images éditées et utilisons les cartes de confiance en sortie ainsi que les erreurs d'estimation de pose comme signaux de récompense, ancrant efficacement les connaissances préalables de l'édition 2D sur une variété cohérente en 3D via le RL. Des expériences approfondies démontrent que RL3DEdit atteint une cohérence multi-vues stable et surpasse les méthodes de pointe en qualité d'édition avec une grande efficacité. Pour promouvoir le développement de l'édition 3D, nous publierons le code et le modèle.

English

Leveraging the priors of 2D diffusion models for 3D editing has emerged as a promising paradigm. However, maintaining multi-view consistency in edited results remains challenging, and the extreme scarcity of 3D-consistent editing paired data renders supervised fine-tuning (SFT), the most effective training strategy for editing tasks, infeasible. In this paper, we observe that, while generating multi-view consistent 3D content is highly challenging, verifying 3D consistency is tractable, naturally positioning reinforcement learning (RL) as a feasible solution. Motivated by this, we propose RL3DEdit, a single-pass framework driven by RL optimization with novel rewards derived from the 3D foundation model, VGGT. Specifically, we leverage VGGT's robust priors learned from massive real-world data, feed the edited images, and utilize the output confidence maps and pose estimation errors as reward signals, effectively anchoring the 2D editing priors onto a 3D-consistent manifold via RL. Extensive experiments demonstrate that RL3DEdit achieves stable multi-view consistency and outperforms state-of-the-art methods in editing quality with high efficiency. To promote the development of 3D editing, we will release the code and model.

Renforcement de l'apprentissage par la géométrie pour l'édition cohérente de scènes 3D multi-vues

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

Résumé

Support