Edición robusta a nivel de partes con enmascaramiento 3D en 3D Gaussian Splatting mediante muestreo de destilación de puntuación regularizado
Robust 3D-Masked Part-level Editing in 3D Gaussian Splatting with Regularized Score Distillation Sampling
July 15, 2025
Autores: Hayeon Kim, Ji Ha Jang, Se Young Chun
cs.AI
Resumen
Los recientes avances en representaciones neuronales 3D y modelos de edición a nivel de instancia han permitido la creación eficiente de contenido 3D de alta calidad. Sin embargo, lograr ediciones locales precisas en 3D sigue siendo un desafío, especialmente para el método de Gaussian Splatting, debido a segmentaciones inconsistentes de partes 2D en múltiples vistas y a la naturaleza inherentemente ambigua de la función de pérdida de Score Distillation Sampling (SDS). Para abordar estas limitaciones, proponemos RoMaP, un novedoso marco de edición local de Gaussianos 3D que permite modificaciones precisas y drásticas a nivel de partes. En primer lugar, introducimos un módulo robusto de generación de máscaras 3D con nuestra técnica de Predicción de Etiquetas Conscientes de la Geometría 3D (3D-GALP), que utiliza coeficientes de armónicos esféricos (SH) para modelar variaciones dependientes de la vista en las etiquetas y la propiedad de etiquetas suaves, obteniendo segmentaciones de partes precisas y consistentes en todas las vistas. En segundo lugar, proponemos una función de pérdida SDS regularizada que combina la pérdida SDS estándar con regularizadores adicionales. En particular, se introduce una pérdida de anclaje L1 mediante nuestro método de edición de Mezcla Latente Programada y Partes (SLaMP), que genera imágenes 2D editadas de alta calidad y limita las modificaciones únicamente a la región objetivo mientras preserva la coherencia contextual. Regularizadores adicionales, como la eliminación del prior Gaussiano, mejoran aún más la flexibilidad al permitir cambios más allá del contexto existente, y el enmascaramiento robusto en 3D evita ediciones no deseadas. Los resultados experimentales demuestran que nuestro RoMaP logra un estado del arte en edición local 3D tanto en escenas como en objetos Gaussianos reconstruidos y generados, cualitativa y cuantitativamente, haciendo posible una edición de Gaussianos 3D más robusta y flexible a nivel de partes. El código está disponible en https://janeyeon.github.io/romap.
English
Recent advances in 3D neural representations and instance-level editing
models have enabled the efficient creation of high-quality 3D content. However,
achieving precise local 3D edits remains challenging, especially for Gaussian
Splatting, due to inconsistent multi-view 2D part segmentations and inherently
ambiguous nature of Score Distillation Sampling (SDS) loss. To address these
limitations, we propose RoMaP, a novel local 3D Gaussian editing framework that
enables precise and drastic part-level modifications. First, we introduce a
robust 3D mask generation module with our 3D-Geometry Aware Label Prediction
(3D-GALP), which uses spherical harmonics (SH) coefficients to model
view-dependent label variations and soft-label property, yielding accurate and
consistent part segmentations across viewpoints. Second, we propose a
regularized SDS loss that combines the standard SDS loss with additional
regularizers. In particular, an L1 anchor loss is introduced via our Scheduled
Latent Mixing and Part (SLaMP) editing method, which generates high-quality
part-edited 2D images and confines modifications only to the target region
while preserving contextual coherence. Additional regularizers, such as
Gaussian prior removal, further improve flexibility by allowing changes beyond
the existing context, and robust 3D masking prevents unintended edits.
Experimental results demonstrate that our RoMaP achieves state-of-the-art local
3D editing on both reconstructed and generated Gaussian scenes and objects
qualitatively and quantitatively, making it possible for more robust and
flexible part-level 3D Gaussian editing. Code is available at
https://janeyeon.github.io/romap.