ChatPaper.aiChatPaper

Robustes neuronales Rendering in realen Umgebungen mit asymmetrischem dualem 3D-Gauß-Splatting

Robust Neural Rendering in the Wild with Asymmetric Dual 3D Gaussian Splatting

June 4, 2025
Autoren: Chengqi Li, Zhihao Shi, Yangdi Lu, Wenbo He, Xiangyu Xu
cs.AI

Zusammenfassung

Die 3D-Rekonstruktion aus Bildern in unkontrollierten Umgebungen bleibt aufgrund inkonsistenter Lichtverhältnisse und vorübergehender Störfaktoren eine anspruchsvolle Aufgabe. Bestehende Methoden verlassen sich typischerweise auf heuristische Strategien, um die niedrige Qualität der Trainingsdaten zu bewältigen, was oft zu instabilen und inkonsistenten Rekonstruktionen führt und häufig visuelle Artefakte verursacht. In dieser Arbeit schlagen wir Asymmetric Dual 3DGS vor, ein neuartiges Framework, das die stochastische Natur dieser Artefakte nutzt: Sie neigen dazu, aufgrund geringfügiger Zufälligkeiten über verschiedene Trainingsläufe hinweg zu variieren. Konkret trainiert unsere Methode zwei 3D Gaussian Splatting (3DGS)-Modelle parallel und erzwingt eine Konsistenzbedingung, die die Konvergenz auf zuverlässige Szenengeometrie fördert, während inkonsistente Artefakte unterdrückt werden. Um zu verhindern, dass die beiden Modelle aufgrund von Bestätigungsfehlern in ähnliche Fehlermodi kollabieren, führen wir eine divergente Maskierungsstrategie ein, die zwei komplementäre Masken anwendet: eine multikriterielle adaptive Maske und eine selbstüberwachte weiche Maske, was zu einem asymmetrischen Trainingsprozess der beiden Modelle führt und gemeinsame Fehlermodi reduziert. Darüber hinaus führen wir, um die Effizienz des Modelltrainings zu verbessern, eine leichtgewichtige Variante namens Dynamic EMA Proxy ein, die eines der beiden Modelle durch einen dynamisch aktualisierten Exponential Moving Average (EMA)-Proxy ersetzt und eine abwechselnde Maskierungsstrategie verwendet, um die Divergenz zu bewahren. Umfangreiche Experimente mit anspruchsvollen realen Datensätzen zeigen, dass unsere Methode bestehende Ansätze durchweg übertrifft und dabei hohe Effizienz erreicht. Codes und trainierte Modelle werden veröffentlicht.
English
3D reconstruction from in-the-wild images remains a challenging task due to inconsistent lighting conditions and transient distractors. Existing methods typically rely on heuristic strategies to handle the low-quality training data, which often struggle to produce stable and consistent reconstructions, frequently resulting in visual artifacts. In this work, we propose Asymmetric Dual 3DGS, a novel framework that leverages the stochastic nature of these artifacts: they tend to vary across different training runs due to minor randomness. Specifically, our method trains two 3D Gaussian Splatting (3DGS) models in parallel, enforcing a consistency constraint that encourages convergence on reliable scene geometry while suppressing inconsistent artifacts. To prevent the two models from collapsing into similar failure modes due to confirmation bias, we introduce a divergent masking strategy that applies two complementary masks: a multi-cue adaptive mask and a self-supervised soft mask, which leads to an asymmetric training process of the two models, reducing shared error modes. In addition, to improve the efficiency of model training, we introduce a lightweight variant called Dynamic EMA Proxy, which replaces one of the two models with a dynamically updated Exponential Moving Average (EMA) proxy, and employs an alternating masking strategy to preserve divergence. Extensive experiments on challenging real-world datasets demonstrate that our method consistently outperforms existing approaches while achieving high efficiency. Codes and trained models will be released.
PDF22June 5, 2025