Edición Gaussiana en 3D con una sola imagen

Resumen

La modelización y manipulación de escenas 3D capturadas del mundo real son fundamentales en varias aplicaciones, atrayendo un creciente interés de investigación. Mientras que trabajos previos en edición han logrado resultados interesantes mediante la manipulación de mallas 3D, a menudo requieren mallas reconstruidas con precisión para llevar a cabo la edición, lo que limita su aplicación en la generación de contenido 3D. Para abordar esta brecha, presentamos un novedoso enfoque de edición de escenas 3D impulsado por una sola imagen basado en el "splatting" gaussiano 3D, que permite una manipulación intuitiva mediante la edición directa del contenido en un plano de imagen 2D. Nuestro método aprende a optimizar los gaussianos 3D para alinearse con una versión editada de la imagen renderizada desde un punto de vista especificado por el usuario de la escena original. Para capturar la deformación de objetos a larga distancia, introducimos una pérdida posicional en el proceso de optimización del "splatting" gaussiano 3D y permitimos la propagación de gradientes a través de una reparametrización. Para manejar los gaussianos 3D ocultos al renderizar desde el punto de vista especificado, construimos una estructura basada en anclas y empleamos una estrategia de optimización de grueso a fino capaz de manejar la deformación a larga distancia manteniendo la estabilidad estructural. Además, diseñamos una novedosa estrategia de enmascaramiento para identificar de manera adaptativa regiones de deformación no rígida para modelado a escala fina. Experimentos extensos muestran la efectividad de nuestro método en el manejo de detalles geométricos, deformaciones a larga distancia y no rígidas, demostrando una flexibilidad y calidad de edición superiores en comparación con enfoques anteriores.

English

The modeling and manipulation of 3D scenes captured from the real world are pivotal in various applications, attracting growing research interest. While previous works on editing have achieved interesting results through manipulating 3D meshes, they often require accurately reconstructed meshes to perform editing, which limits their application in 3D content generation. To address this gap, we introduce a novel single-image-driven 3D scene editing approach based on 3D Gaussian Splatting, enabling intuitive manipulation via directly editing the content on a 2D image plane. Our method learns to optimize the 3D Gaussians to align with an edited version of the image rendered from a user-specified viewpoint of the original scene. To capture long-range object deformation, we introduce positional loss into the optimization process of 3D Gaussian Splatting and enable gradient propagation through reparameterization. To handle occluded 3D Gaussians when rendering from the specified viewpoint, we build an anchor-based structure and employ a coarse-to-fine optimization strategy capable of handling long-range deformation while maintaining structural stability. Furthermore, we design a novel masking strategy to adaptively identify non-rigid deformation regions for fine-scale modeling. Extensive experiments show the effectiveness of our method in handling geometric details, long-range, and non-rigid deformation, demonstrating superior editing flexibility and quality compared to previous approaches.

Edición Gaussiana en 3D con una sola imagen

3D Gaussian Editing with A Single Image

Resumen

Support