Renderização Neural Robusta em Ambientes Reais com Esplatamento Assimétrico de Gaussianas 3D Duplas
Robust Neural Rendering in the Wild with Asymmetric Dual 3D Gaussian Splatting
June 4, 2025
Autores: Chengqi Li, Zhihao Shi, Yangdi Lu, Wenbo He, Xiangyu Xu
cs.AI
Resumo
A reconstrução 3D a partir de imagens capturadas em ambientes não controlados continua sendo uma tarefa desafiadora devido às condições de iluminação inconsistentes e aos distratores transitórios. Os métodos existentes geralmente dependem de estratégias heurísticas para lidar com dados de treinamento de baixa qualidade, que frequentemente lutam para produzir reconstruções estáveis e consistentes, resultando em artefatos visuais. Neste trabalho, propomos o Asymmetric Dual 3DGS, um novo framework que aproveita a natureza estocástica desses artefatos: eles tendem a variar entre diferentes execuções de treinamento devido a pequenas variações aleatórias. Especificamente, nosso método treina dois modelos de 3D Gaussian Splatting (3DGS) em paralelo, aplicando uma restrição de consistência que incentiva a convergência para uma geometria de cena confiável enquanto suprime artefatos inconsistentes. Para evitar que os dois modelos colapsem em modos de falha semelhantes devido ao viés de confirmação, introduzimos uma estratégia de mascaramento divergente que aplica duas máscaras complementares: uma máscara adaptativa multicomponente e uma máscara suave auto-supervisionada, o que leva a um processo de treinamento assimétrico dos dois modelos, reduzindo modos de erro compartilhados. Além disso, para melhorar a eficiência do treinamento do modelo, introduzimos uma variante leve chamada Dynamic EMA Proxy, que substitui um dos dois modelos por um proxy de Média Móvel Exponencial (EMA) atualizado dinamicamente, e emprega uma estratégia de mascaramento alternado para preservar a divergência. Experimentos extensivos em conjuntos de dados desafiadores do mundo real demonstram que nosso método supera consistentemente as abordagens existentes enquanto alcança alta eficiência. Códigos e modelos treinados serão disponibilizados.
English
3D reconstruction from in-the-wild images remains a challenging task due to
inconsistent lighting conditions and transient distractors. Existing methods
typically rely on heuristic strategies to handle the low-quality training data,
which often struggle to produce stable and consistent reconstructions,
frequently resulting in visual artifacts. In this work, we propose Asymmetric
Dual 3DGS, a novel framework that leverages the stochastic nature of these
artifacts: they tend to vary across different training runs due to minor
randomness. Specifically, our method trains two 3D Gaussian Splatting (3DGS)
models in parallel, enforcing a consistency constraint that encourages
convergence on reliable scene geometry while suppressing inconsistent
artifacts. To prevent the two models from collapsing into similar failure modes
due to confirmation bias, we introduce a divergent masking strategy that
applies two complementary masks: a multi-cue adaptive mask and a
self-supervised soft mask, which leads to an asymmetric training process of the
two models, reducing shared error modes. In addition, to improve the efficiency
of model training, we introduce a lightweight variant called Dynamic EMA Proxy,
which replaces one of the two models with a dynamically updated Exponential
Moving Average (EMA) proxy, and employs an alternating masking strategy to
preserve divergence. Extensive experiments on challenging real-world datasets
demonstrate that our method consistently outperforms existing approaches while
achieving high efficiency. Codes and trained models will be released.