CAST : Reconstruction de scène 3D alignée par composants à partir d'une image RVB
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image
February 18, 2025
Auteurs: Kaixin Yao, Longwen Zhang, Xinhao Yan, Yan Zeng, Qixuan Zhang, Lan Xu, Wei Yang, Jiayuan Gu, Jingyi Yu
cs.AI
Résumé
La reconstruction de scènes 3D de haute qualité à partir d'une seule image RVB est une tâche complexe en infographie. Les méthodes actuelles rencontrent souvent des limitations spécifiques à un domaine ou produisent des objets de faible qualité. Pour remédier à ces problèmes, nous proposons CAST (Component-Aligned 3D Scene Reconstruction from a Single RGB Image), une nouvelle méthode de reconstruction et de récupération de scènes 3D. CAST commence par extraire une segmentation 2D au niveau des objets et des informations de profondeur relative à partir de l'image d'entrée, puis utilise un modèle basé sur GPT pour analyser les relations spatiales inter-objets. Cela permet de comprendre comment les objets interagissent entre eux dans la scène, assurant une reconstruction plus cohérente. CAST emploie ensuite un modèle de génération 3D à grande échelle prenant en compte les occlusions pour générer indépendamment la géométrie complète de chaque objet, en utilisant le conditionnement par MAE et par nuage de points pour atténuer les effets des occlusions et des informations partielles sur les objets, garantissant un alignement précis avec la géométrie et la texture de l'image source. Pour aligner chaque objet avec la scène, le modèle de génération d'alignement calcule les transformations nécessaires, permettant aux maillages générés d'être positionnés et intégrés avec précision dans le nuage de points de la scène. Enfin, CAST intègre une étape de correction prenant en compte la physique, qui exploite un graphe de relations fines pour générer un graphe de contraintes. Ce graphe guide l'optimisation des poses des objets, assurant une cohérence physique et spatiale. En utilisant les champs de distance signée (SDF), le modèle résout efficacement des problèmes tels que les occlusions, les pénétrations d'objets et les objets flottants, garantissant que la scène générée reflète fidèlement les interactions physiques du monde réel. CAST peut être exploité en robotique, permettant des workflows efficaces du réel à la simulation et fournissant des environnements de simulation réalistes et évolutifs pour les systèmes robotiques.
English
Recovering high-quality 3D scenes from a single RGB image is a challenging
task in computer graphics. Current methods often struggle with domain-specific
limitations or low-quality object generation. To address these, we propose CAST
(Component-Aligned 3D Scene Reconstruction from a Single RGB Image), a novel
method for 3D scene reconstruction and recovery. CAST starts by extracting
object-level 2D segmentation and relative depth information from the input
image, followed by using a GPT-based model to analyze inter-object spatial
relationships. This enables the understanding of how objects relate to each
other within the scene, ensuring more coherent reconstruction. CAST then
employs an occlusion-aware large-scale 3D generation model to independently
generate each object's full geometry, using MAE and point cloud conditioning to
mitigate the effects of occlusions and partial object information, ensuring
accurate alignment with the source image's geometry and texture. To align each
object with the scene, the alignment generation model computes the necessary
transformations, allowing the generated meshes to be accurately placed and
integrated into the scene's point cloud. Finally, CAST incorporates a
physics-aware correction step that leverages a fine-grained relation graph to
generate a constraint graph. This graph guides the optimization of object
poses, ensuring physical consistency and spatial coherence. By utilizing Signed
Distance Fields (SDF), the model effectively addresses issues such as
occlusions, object penetration, and floating objects, ensuring that the
generated scene accurately reflects real-world physical interactions. CAST can
be leveraged in robotics, enabling efficient real-to-simulation workflows and
providing realistic, scalable simulation environments for robotic systems.Summary
AI-Generated Summary