Robustes neuronales Rendering in realen Umgebungen mit asymmetrischem dualem 3D-Gauß-Splatting
Robust Neural Rendering in the Wild with Asymmetric Dual 3D Gaussian Splatting
June 4, 2025
Autoren: Chengqi Li, Zhihao Shi, Yangdi Lu, Wenbo He, Xiangyu Xu
cs.AI
Zusammenfassung
Die 3D-Rekonstruktion aus Bildern in unkontrollierten Umgebungen bleibt aufgrund inkonsistenter Lichtverhältnisse und vorübergehender Störfaktoren eine anspruchsvolle Aufgabe. Bestehende Methoden verlassen sich typischerweise auf heuristische Strategien, um die niedrige Qualität der Trainingsdaten zu bewältigen, was oft zu instabilen und inkonsistenten Rekonstruktionen führt und häufig visuelle Artefakte verursacht. In dieser Arbeit schlagen wir Asymmetric Dual 3DGS vor, ein neuartiges Framework, das die stochastische Natur dieser Artefakte nutzt: Sie neigen dazu, aufgrund geringfügiger Zufälligkeiten über verschiedene Trainingsläufe hinweg zu variieren. Konkret trainiert unsere Methode zwei 3D Gaussian Splatting (3DGS)-Modelle parallel und erzwingt eine Konsistenzbedingung, die die Konvergenz auf zuverlässige Szenengeometrie fördert, während inkonsistente Artefakte unterdrückt werden. Um zu verhindern, dass die beiden Modelle aufgrund von Bestätigungsfehlern in ähnliche Fehlermodi kollabieren, führen wir eine divergente Maskierungsstrategie ein, die zwei komplementäre Masken anwendet: eine multikriterielle adaptive Maske und eine selbstüberwachte weiche Maske, was zu einem asymmetrischen Trainingsprozess der beiden Modelle führt und gemeinsame Fehlermodi reduziert. Darüber hinaus führen wir, um die Effizienz des Modelltrainings zu verbessern, eine leichtgewichtige Variante namens Dynamic EMA Proxy ein, die eines der beiden Modelle durch einen dynamisch aktualisierten Exponential Moving Average (EMA)-Proxy ersetzt und eine abwechselnde Maskierungsstrategie verwendet, um die Divergenz zu bewahren. Umfangreiche Experimente mit anspruchsvollen realen Datensätzen zeigen, dass unsere Methode bestehende Ansätze durchweg übertrifft und dabei hohe Effizienz erreicht. Codes und trainierte Modelle werden veröffentlicht.
English
3D reconstruction from in-the-wild images remains a challenging task due to
inconsistent lighting conditions and transient distractors. Existing methods
typically rely on heuristic strategies to handle the low-quality training data,
which often struggle to produce stable and consistent reconstructions,
frequently resulting in visual artifacts. In this work, we propose Asymmetric
Dual 3DGS, a novel framework that leverages the stochastic nature of these
artifacts: they tend to vary across different training runs due to minor
randomness. Specifically, our method trains two 3D Gaussian Splatting (3DGS)
models in parallel, enforcing a consistency constraint that encourages
convergence on reliable scene geometry while suppressing inconsistent
artifacts. To prevent the two models from collapsing into similar failure modes
due to confirmation bias, we introduce a divergent masking strategy that
applies two complementary masks: a multi-cue adaptive mask and a
self-supervised soft mask, which leads to an asymmetric training process of the
two models, reducing shared error modes. In addition, to improve the efficiency
of model training, we introduce a lightweight variant called Dynamic EMA Proxy,
which replaces one of the two models with a dynamically updated Exponential
Moving Average (EMA) proxy, and employs an alternating masking strategy to
preserve divergence. Extensive experiments on challenging real-world datasets
demonstrate that our method consistently outperforms existing approaches while
achieving high efficiency. Codes and trained models will be released.