Reinforcement Learning Guiado por Geometría para la Edición de Escenas 3D con Consistencia Multi-vista

Resumen

El aprovechamiento de los conocimientos previos de los modelos de difusión 2D para la edición 3D ha surgido como un paradigma prometedor. Sin embargo, mantener la consistencia multi-vista en los resultados editados sigue siendo un desafío, y la extrema escasez de datos pareados de edición 3D-consistente hace inviable el ajuste fino supervisado (SFT), la estrategia de entrenamiento más efectiva para tareas de edición. En este artículo, observamos que, aunque generar contenido 3D multi-vista consistente es altamente desafiante, verificar la consistencia 3D es manejable, posicionando naturalmente al aprendizaje por refuerzo (RL) como una solución factible. Motivados por esto, proponemos RL3DEdit, un marco de una sola pasada impulsado por optimización RL con recompensas novedosas derivadas del modelo fundacional 3D, VGGT. Específicamente, aprovechamos los conocimientos previos robustos de VGGT aprendidos de datos masivos del mundo real, alimentamos las imágenes editadas y utilizamos los mapas de confianza de salida y los errores de estimación de pose como señales de recompensa, anclando efectivamente los conocimientos previos de edición 2D en una variedad 3D-consistente mediante RL. Experimentos exhaustivos demuestran que RL3DEdit logra una consistencia multi-vista estable y supera a los métodos state-of-the-art en calidad de edición con alta eficiencia. Para promover el desarrollo de la edición 3D, liberaremos el código y el modelo.

English

Leveraging the priors of 2D diffusion models for 3D editing has emerged as a promising paradigm. However, maintaining multi-view consistency in edited results remains challenging, and the extreme scarcity of 3D-consistent editing paired data renders supervised fine-tuning (SFT), the most effective training strategy for editing tasks, infeasible. In this paper, we observe that, while generating multi-view consistent 3D content is highly challenging, verifying 3D consistency is tractable, naturally positioning reinforcement learning (RL) as a feasible solution. Motivated by this, we propose RL3DEdit, a single-pass framework driven by RL optimization with novel rewards derived from the 3D foundation model, VGGT. Specifically, we leverage VGGT's robust priors learned from massive real-world data, feed the edited images, and utilize the output confidence maps and pose estimation errors as reward signals, effectively anchoring the 2D editing priors onto a 3D-consistent manifold via RL. Extensive experiments demonstrate that RL3DEdit achieves stable multi-view consistency and outperforms state-of-the-art methods in editing quality with high efficiency. To promote the development of 3D editing, we will release the code and model.

Reinforcement Learning Guiado por Geometría para la Edición de Escenas 3D con Consistencia Multi-vista

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

Resumen

Support