ChatPaper.aiChatPaper

Rendu Neural Robuste en Environnement Réel avec Projection Double Asymétrique de Gaussiennes 3D

Robust Neural Rendering in the Wild with Asymmetric Dual 3D Gaussian Splatting

June 4, 2025
Auteurs: Chengqi Li, Zhihao Shi, Yangdi Lu, Wenbo He, Xiangyu Xu
cs.AI

Résumé

La reconstruction 3D à partir d'images capturées en conditions réelles reste une tâche complexe en raison des conditions d'éclairage incohérentes et des distracteurs transitoires. Les méthodes existantes reposent généralement sur des stratégies heuristiques pour gérer les données d'entraînement de faible qualité, ce qui entraîne souvent des reconstructions instables et incohérentes, avec des artefacts visuels fréquents. Dans ce travail, nous proposons Asymmetric Dual 3DGS, un nouveau cadre qui exploite la nature stochastique de ces artefacts : ils ont tendance à varier entre différentes exécutions d'entraînement en raison de légers aléas. Concrètement, notre méthode entraîne deux modèles de 3D Gaussian Splatting (3DGS) en parallèle, en imposant une contrainte de cohérence qui favorise la convergence vers une géométrie de scène fiable tout en supprimant les artefacts incohérents. Pour éviter que les deux modèles ne convergent vers des modes d'échec similaires en raison d'un biais de confirmation, nous introduisons une stratégie de masquage divergente qui applique deux masques complémentaires : un masque adaptatif multi-indices et un masque doux auto-supervisé, ce qui conduit à un processus d'entraînement asymétrique des deux modèles, réduisant ainsi les modes d'erreur partagés. De plus, pour améliorer l'efficacité de l'entraînement des modèles, nous introduisons une variante légère appelée Dynamic EMA Proxy, qui remplace l'un des deux modèles par un proxy mis à jour dynamiquement via une moyenne mobile exponentielle (EMA), et utilise une stratégie de masquage alternée pour préserver la divergence. Des expériences approfondies sur des ensembles de données réels et complexes montrent que notre méthode surpasse systématiquement les approches existantes tout en atteignant une grande efficacité. Les codes et les modèles entraînés seront rendus publics.
English
3D reconstruction from in-the-wild images remains a challenging task due to inconsistent lighting conditions and transient distractors. Existing methods typically rely on heuristic strategies to handle the low-quality training data, which often struggle to produce stable and consistent reconstructions, frequently resulting in visual artifacts. In this work, we propose Asymmetric Dual 3DGS, a novel framework that leverages the stochastic nature of these artifacts: they tend to vary across different training runs due to minor randomness. Specifically, our method trains two 3D Gaussian Splatting (3DGS) models in parallel, enforcing a consistency constraint that encourages convergence on reliable scene geometry while suppressing inconsistent artifacts. To prevent the two models from collapsing into similar failure modes due to confirmation bias, we introduce a divergent masking strategy that applies two complementary masks: a multi-cue adaptive mask and a self-supervised soft mask, which leads to an asymmetric training process of the two models, reducing shared error modes. In addition, to improve the efficiency of model training, we introduce a lightweight variant called Dynamic EMA Proxy, which replaces one of the two models with a dynamically updated Exponential Moving Average (EMA) proxy, and employs an alternating masking strategy to preserve divergence. Extensive experiments on challenging real-world datasets demonstrate that our method consistently outperforms existing approaches while achieving high efficiency. Codes and trained models will be released.
PDF22June 5, 2025