Renderizado Neural Robusto en Entornos Reales con Splatting de Gaussianas 3D Asimétricas Duales
Robust Neural Rendering in the Wild with Asymmetric Dual 3D Gaussian Splatting
June 4, 2025
Autores: Chengqi Li, Zhihao Shi, Yangdi Lu, Wenbo He, Xiangyu Xu
cs.AI
Resumen
La reconstrucción 3D a partir de imágenes en entornos no controlados sigue siendo una tarea desafiante debido a las condiciones de iluminación inconsistentes y a los distractores transitorios. Los métodos existentes suelen depender de estrategias heurísticas para manejar los datos de entrenamiento de baja calidad, lo que a menudo dificulta la producción de reconstrucciones estables y consistentes, resultando frecuentemente en artefactos visuales. En este trabajo, proponemos Asymmetric Dual 3DGS, un marco novedoso que aprovecha la naturaleza estocástica de estos artefactos: tienden a variar entre diferentes ejecuciones de entrenamiento debido a pequeñas variaciones aleatorias. Específicamente, nuestro método entrena dos modelos de 3D Gaussian Splatting (3DGS) en paralelo, aplicando una restricción de consistencia que fomenta la convergencia en una geometría de escena confiable mientras suprime los artefactos inconsistentes. Para evitar que los dos modelos colapsen en modos de fallo similares debido al sesgo de confirmación, introducimos una estrategia de enmascaramiento divergente que aplica dos máscaras complementarias: una máscara adaptativa multiclave y una máscara suave auto-supervisada, lo que conduce a un proceso de entrenamiento asimétrico de los dos modelos, reduciendo los modos de error compartidos. Además, para mejorar la eficiencia del entrenamiento del modelo, introducimos una variante ligera llamada Dynamic EMA Proxy, que reemplaza uno de los dos modelos con un proxy de Media Móvil Exponencial (EMA) actualizado dinámicamente, y emplea una estrategia de enmascaramiento alternante para preservar la divergencia. Experimentos extensos en conjuntos de datos del mundo real y desafiantes demuestran que nuestro método supera consistentemente a los enfoques existentes mientras logra una alta eficiencia. Los códigos y modelos entrenados serán liberados.
English
3D reconstruction from in-the-wild images remains a challenging task due to
inconsistent lighting conditions and transient distractors. Existing methods
typically rely on heuristic strategies to handle the low-quality training data,
which often struggle to produce stable and consistent reconstructions,
frequently resulting in visual artifacts. In this work, we propose Asymmetric
Dual 3DGS, a novel framework that leverages the stochastic nature of these
artifacts: they tend to vary across different training runs due to minor
randomness. Specifically, our method trains two 3D Gaussian Splatting (3DGS)
models in parallel, enforcing a consistency constraint that encourages
convergence on reliable scene geometry while suppressing inconsistent
artifacts. To prevent the two models from collapsing into similar failure modes
due to confirmation bias, we introduce a divergent masking strategy that
applies two complementary masks: a multi-cue adaptive mask and a
self-supervised soft mask, which leads to an asymmetric training process of the
two models, reducing shared error modes. In addition, to improve the efficiency
of model training, we introduce a lightweight variant called Dynamic EMA Proxy,
which replaces one of the two models with a dynamically updated Exponential
Moving Average (EMA) proxy, and employs an alternating masking strategy to
preserve divergence. Extensive experiments on challenging real-world datasets
demonstrate that our method consistently outperforms existing approaches while
achieving high efficiency. Codes and trained models will be released.