CAST: Component-Uitgelijnde 3D Scène-reconstructie vanuit een RGB-afbeelding
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image
February 18, 2025
Auteurs: Kaixin Yao, Longwen Zhang, Xinhao Yan, Yan Zeng, Qixuan Zhang, Lan Xu, Wei Yang, Jiayuan Gu, Jingyi Yu
cs.AI
Samenvatting
Het herstellen van hoogwaardige 3D-scènes uit een enkele RGB-afbeelding is een uitdagende taak in de computer graphics. Huidige methoden kampen vaak met domeinspecifieke beperkingen of het genereren van objecten van lage kwaliteit. Om deze problemen aan te pakken, stellen we CAST (Component-Aligned 3D Scene Reconstruction from a Single RGB Image) voor, een nieuwe methode voor 3D-scène-reconstructie en -herstel. CAST begint met het extraheren van objectniveau 2D-segmentatie en relatieve diepte-informatie uit de invoerafbeelding, gevolgd door het gebruik van een GPT-gebaseerd model om de ruimtelijke relaties tussen objecten te analyseren. Hierdoor wordt begrepen hoe objecten zich tot elkaar verhouden binnen de scène, wat zorgt voor een meer samenhangende reconstructie. CAST maakt vervolgens gebruik van een occlusiebewust grootschalig 3D-generatiemodel om de volledige geometrie van elk object onafhankelijk te genereren, waarbij MAE en point cloud-conditionering worden gebruikt om de effecten van occlusies en gedeeltelijke objectinformatie te mitigeren, waardoor een nauwkeurige uitlijning met de geometrie en textuur van de bronafbeelding wordt gegarandeerd. Om elk object met de scène uit te lijnen, berekent het uitlijningsgeneratiemodel de benodigde transformaties, waardoor de gegenereerde meshes nauwkeurig kunnen worden geplaatst en geïntegreerd in de point cloud van de scène. Ten slotte bevat CAST een fysicabewuste correctiestap die gebruikmaakt van een fijnmazige relatiegrafiek om een beperkingsgrafiek te genereren. Deze grafiek begeleidt de optimalisatie van objectposities, waardoor fysieke consistentie en ruimtelijke samenhang worden gegarandeerd. Door gebruik te maken van Signed Distance Fields (SDF) lost het model effectief problemen op zoals occlusies, objectpenetratie en zwevende objecten, waardoor de gegenereerde scène nauwkeurig de fysieke interacties in de echte wereld weerspiegelt. CAST kan worden ingezet in robotica, waardoor efficiënte real-to-simulation workflows mogelijk worden en realistische, schaalbare simulatieomgevingen voor robotsystemen worden geboden.
English
Recovering high-quality 3D scenes from a single RGB image is a challenging
task in computer graphics. Current methods often struggle with domain-specific
limitations or low-quality object generation. To address these, we propose CAST
(Component-Aligned 3D Scene Reconstruction from a Single RGB Image), a novel
method for 3D scene reconstruction and recovery. CAST starts by extracting
object-level 2D segmentation and relative depth information from the input
image, followed by using a GPT-based model to analyze inter-object spatial
relationships. This enables the understanding of how objects relate to each
other within the scene, ensuring more coherent reconstruction. CAST then
employs an occlusion-aware large-scale 3D generation model to independently
generate each object's full geometry, using MAE and point cloud conditioning to
mitigate the effects of occlusions and partial object information, ensuring
accurate alignment with the source image's geometry and texture. To align each
object with the scene, the alignment generation model computes the necessary
transformations, allowing the generated meshes to be accurately placed and
integrated into the scene's point cloud. Finally, CAST incorporates a
physics-aware correction step that leverages a fine-grained relation graph to
generate a constraint graph. This graph guides the optimization of object
poses, ensuring physical consistency and spatial coherence. By utilizing Signed
Distance Fields (SDF), the model effectively addresses issues such as
occlusions, object penetration, and floating objects, ensuring that the
generated scene accurately reflects real-world physical interactions. CAST can
be leveraged in robotics, enabling efficient real-to-simulation workflows and
providing realistic, scalable simulation environments for robotic systems.Summary
AI-Generated Summary