CAST: Komponentenausgerichtete 3D-Szenenrekonstruktion aus einem RGB-Bild
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image
February 18, 2025
Autoren: Kaixin Yao, Longwen Zhang, Xinhao Yan, Yan Zeng, Qixuan Zhang, Lan Xu, Wei Yang, Jiayuan Gu, Jingyi Yu
cs.AI
Zusammenfassung
Die Wiederherstellung hochwertiger 3D-Szenen aus einem einzelnen RGB-Bild ist eine anspruchsvolle Aufgabe in der Computergrafik. Aktuelle Methoden kämpfen oft mit domänenspezifischen Einschränkungen oder der Erzeugung von Objekten geringer Qualität. Um diese Probleme zu adressieren, schlagen wir CAST (Component-Aligned 3D Scene Reconstruction from a Single RGB Image) vor, eine neuartige Methode zur 3D-Szenenrekonstruktion und -wiederherstellung. CAST beginnt mit der Extraktion von objektbezogener 2D-Segmentierung und relativer Tiefeninformation aus dem Eingabebild, gefolgt von der Verwendung eines GPT-basierten Modells zur Analyse der räumlichen Beziehungen zwischen Objekten. Dies ermöglicht das Verständnis, wie Objekte innerhalb der Szene zueinander in Beziehung stehen, und gewährleistet eine kohärentere Rekonstruktion. Anschließend verwendet CAST ein okklusionsbewusstes großskaliges 3D-Generierungsmodell, um die vollständige Geometrie jedes Objekts unabhängig zu erzeugen. Dabei werden MAE (Masked Autoencoder) und Punktwolken-Konditionierung eingesetzt, um die Auswirkungen von Verdeckungen und partiellen Objektinformationen zu mildern und eine präzise Ausrichtung an der Geometrie und Textur des Quellbilds sicherzustellen. Um jedes Objekt mit der Szene auszurichten, berechnet das Ausrichtungsgenerierungsmodell die notwendigen Transformationen, wodurch die generierten Meshes präzise platziert und in die Punktwolke der Szene integriert werden können. Schließlich beinhaltet CAST einen physikbewussten Korrekturschritt, der einen feingranularen Beziehungsgraphen nutzt, um einen Constraint-Graphen zu erzeugen. Dieser Graph leitet die Optimierung der Objektpositionen und gewährleistet physikalische Konsistenz und räumliche Kohärenz. Durch die Verwendung von Signed Distance Fields (SDF) adressiert das Modell effektiv Probleme wie Verdeckungen, Objektdurchdringungen und schwebende Objekte, sodass die generierte Szene realweltliche physikalische Interaktionen genau widerspiegelt. CAST kann in der Robotik eingesetzt werden, um effiziente Real-to-Simulation-Workflows zu ermöglichen und realistische, skalierbare Simulationsumgebungen für Robotersysteme bereitzustellen.
English
Recovering high-quality 3D scenes from a single RGB image is a challenging
task in computer graphics. Current methods often struggle with domain-specific
limitations or low-quality object generation. To address these, we propose CAST
(Component-Aligned 3D Scene Reconstruction from a Single RGB Image), a novel
method for 3D scene reconstruction and recovery. CAST starts by extracting
object-level 2D segmentation and relative depth information from the input
image, followed by using a GPT-based model to analyze inter-object spatial
relationships. This enables the understanding of how objects relate to each
other within the scene, ensuring more coherent reconstruction. CAST then
employs an occlusion-aware large-scale 3D generation model to independently
generate each object's full geometry, using MAE and point cloud conditioning to
mitigate the effects of occlusions and partial object information, ensuring
accurate alignment with the source image's geometry and texture. To align each
object with the scene, the alignment generation model computes the necessary
transformations, allowing the generated meshes to be accurately placed and
integrated into the scene's point cloud. Finally, CAST incorporates a
physics-aware correction step that leverages a fine-grained relation graph to
generate a constraint graph. This graph guides the optimization of object
poses, ensuring physical consistency and spatial coherence. By utilizing Signed
Distance Fields (SDF), the model effectively addresses issues such as
occlusions, object penetration, and floating objects, ensuring that the
generated scene accurately reflects real-world physical interactions. CAST can
be leveraged in robotics, enabling efficient real-to-simulation workflows and
providing realistic, scalable simulation environments for robotic systems.Summary
AI-Generated Summary