Rendering Neurale Robusto in Ambienti Reali con Duale Asimmetrico a Splatting di Gaussiane 3D

Abstract

La ricostruzione 3D da immagini in contesti non controllati rimane un compito impegnativo a causa delle condizioni di illuminazione incoerenti e dei distrattori transitori. I metodi esistenti si basano tipicamente su strategie euristiche per gestire i dati di addestramento di bassa qualità, che spesso faticano a produrre ricostruzioni stabili e coerenti, risultando frequentemente in artefatti visivi. In questo lavoro, proponiamo Asymmetric Dual 3DGS, un nuovo framework che sfrutta la natura stocastica di questi artefatti: essi tendono a variare tra diverse esecuzioni di addestramento a causa di piccole casualità. Nello specifico, il nostro metodo addestra due modelli di 3D Gaussian Splatting (3DGS) in parallelo, imponendo un vincolo di consistenza che favorisce la convergenza su una geometria della scena affidabile mentre sopprime gli artefatti incoerenti. Per evitare che i due modelli collassino in modalità di fallimento simili a causa del bias di conferma, introduciamo una strategia di mascheramento divergente che applica due maschere complementari: una maschera adattiva multi-segnale e una maschera soft auto-supervisionata, che porta a un processo di addestramento asimmetrico dei due modelli, riducendo le modalità di errore condivise. Inoltre, per migliorare l'efficienza dell'addestramento del modello, introduciamo una variante leggera chiamata Dynamic EMA Proxy, che sostituisce uno dei due modelli con un proxy aggiornato dinamicamente tramite Exponential Moving Average (EMA), e impiega una strategia di mascheramento alternata per preservare la divergenza. Esperimenti estesi su dataset reali complessi dimostrano che il nostro metodo supera costantemente gli approcci esistenti raggiungendo un'elevata efficienza. I codici e i modelli addestrati saranno rilasciati.

English

3D reconstruction from in-the-wild images remains a challenging task due to inconsistent lighting conditions and transient distractors. Existing methods typically rely on heuristic strategies to handle the low-quality training data, which often struggle to produce stable and consistent reconstructions, frequently resulting in visual artifacts. In this work, we propose Asymmetric Dual 3DGS, a novel framework that leverages the stochastic nature of these artifacts: they tend to vary across different training runs due to minor randomness. Specifically, our method trains two 3D Gaussian Splatting (3DGS) models in parallel, enforcing a consistency constraint that encourages convergence on reliable scene geometry while suppressing inconsistent artifacts. To prevent the two models from collapsing into similar failure modes due to confirmation bias, we introduce a divergent masking strategy that applies two complementary masks: a multi-cue adaptive mask and a self-supervised soft mask, which leads to an asymmetric training process of the two models, reducing shared error modes. In addition, to improve the efficiency of model training, we introduce a lightweight variant called Dynamic EMA Proxy, which replaces one of the two models with a dynamically updated Exponential Moving Average (EMA) proxy, and employs an alternating masking strategy to preserve divergence. Extensive experiments on challenging real-world datasets demonstrate that our method consistently outperforms existing approaches while achieving high efficiency. Codes and trained models will be released.

Rendering Neurale Robusto in Ambienti Reali con Duale Asimmetrico a Splatting di Gaussiane 3D

Robust Neural Rendering in the Wild with Asymmetric Dual 3D Gaussian Splatting

Abstract

Support