SimRecon : Reconstruction de scènes compositionnelles SimReady à partir de vidéos réelles

Résumé

La reconstruction compositionnelle de scènes vise à créer des représentations centrées sur les objets plutôt que des scènes holistiques à partir de vidéos du monde réel, ce qui est naturellement applicable à la simulation et à l'interaction. Les approches conventionnelles de reconstruction compositionnelle mettent principalement l'accent sur l'apparence visuelle et présentent une capacité de généralisation limitée aux scénarios réels. Dans cet article, nous proposons SimRecon, un cadre qui réalise un pipeline "Perception-Génération-Simulation" pour la reconstruction de scènes encombrées, qui effectue d'abord une reconstruction sémantique au niveau de la scène à partir d'une vidéo, puis génère des objets individuels, et enfin assemble ces éléments dans le simulateur. Cependant, combiner naïvement ces trois étapes entraîne une infidélité visuelle des assets générés et une implausibilité physique de la scène finale, un problème particulièrement sévère pour les scènes complexes. Ainsi, nous proposons en outre deux modules de liaison entre les trois étapes pour résoudre ce problème. Plus précisément, pour la transition de la Perception à la Génération, cruciale pour la fidélité visuelle, nous introduisons l'Optimisation Active du Point de Vue, qui recherche activement dans l'espace 3D pour acquérir des images projetées optimales comme conditions pour la complétion d'objets individuels. De plus, pour la transition de la Génération à la Simulation, essentielle pour la plausibilité physique, nous proposons un Synthéthiseur de Graphe de Scène, qui guide la construction à partir de zéro dans les simulateurs 3D, reflétant le principe constructif natif du monde réel. Des expériences approfondies sur le jeu de données ScanNet valident la performance supérieure de notre méthode par rapport aux approches état de l'art précédentes.

English

Compositional scene reconstruction seeks to create object-centric representations rather than holistic scenes from real-world videos, which is natively applicable for simulation and interaction. Conventional compositional reconstruction approaches primarily emphasize on visual appearance and show limited generalization ability to real-world scenarios. In this paper, we propose SimRecon, a framework that realizes a "Perception-Generation-Simulation" pipeline towards cluttered scene reconstruction, which first conducts scene-level semantic reconstruction from video input, then performs single-object generation, and finally assembles these assets in the simulator. However, naively combining these three stages leads to visual infidelity of generated assets and physical implausibility of the final scene, a problem particularly severe for complex scenes. Thus, we further propose two bridging modules between the three stages to address this problem. To be specific, for the transition from Perception to Generation, critical for visual fidelity, we introduce Active Viewpoint Optimization, which actively searches in 3D space to acquire optimal projected images as conditions for single-object completion. Moreover, for the transition from Generation to Simulation, essential for physical plausibility, we propose a Scene Graph Synthesizer, which guides the construction from scratch in 3D simulators, mirroring the native, constructive principle of the real world. Extensive experiments on the ScanNet dataset validate our method's superior performance over previous state-of-the-art approaches.

SimRecon : Reconstruction de scènes compositionnelles SimReady à partir de vidéos réelles

SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

Résumé

Support