CAST: Ricostruzione di Scene 3D Allineata ai Componenti da un'Immagine RGB
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image
February 18, 2025
Autori: Kaixin Yao, Longwen Zhang, Xinhao Yan, Yan Zeng, Qixuan Zhang, Lan Xu, Wei Yang, Jiayuan Gu, Jingyi Yu
cs.AI
Abstract
Il recupero di scene 3D di alta qualità da una singola immagine RGB è un compito impegnativo nel campo della computer grafica. I metodi attuali spesso incontrano difficoltà a causa di limitazioni specifiche del dominio o della generazione di oggetti di bassa qualità. Per affrontare questi problemi, proponiamo CAST (Component-Aligned 3D Scene Reconstruction from a Single RGB Image), un metodo innovativo per la ricostruzione e il recupero di scene 3D. CAST inizia estraendo la segmentazione 2D a livello di oggetto e le informazioni sulla profondità relativa dall'immagine di input, seguito dall'utilizzo di un modello basato su GPT per analizzare le relazioni spaziali tra gli oggetti. Ciò consente di comprendere come gli oggetti si relazionano tra loro all'interno della scena, garantendo una ricostruzione più coerente. CAST impiega quindi un modello di generazione 3D su larga scala consapevole delle occlusioni per generare indipendentemente la geometria completa di ciascun oggetto, utilizzando il condizionamento MAE e delle nuvole di punti per mitigare gli effetti delle occlusioni e delle informazioni parziali sugli oggetti, assicurando un allineamento accurato con la geometria e la texture dell'immagine sorgente. Per allineare ciascun oggetto con la scena, il modello di generazione dell'allineamento calcola le trasformazioni necessarie, consentendo alle mesh generate di essere posizionate e integrate con precisione nella nuvola di punti della scena. Infine, CAST incorpora un passaggio di correzione consapevole della fisica che sfrutta un grafo di relazioni granulari per generare un grafo di vincoli. Questo grafo guida l'ottimizzazione delle pose degli oggetti, garantendo coerenza fisica e spaziale. Utilizzando i Campi di Distanza con Segno (SDF), il modello affronta efficacemente problemi come occlusioni, penetrazione degli oggetti e oggetti fluttuanti, assicurando che la scena generata rifletta accuratamente le interazioni fisiche del mondo reale. CAST può essere sfruttato nella robotica, abilitando flussi di lavoro efficienti da reale a simulazione e fornendo ambienti di simulazione realistici e scalabili per sistemi robotici.
English
Recovering high-quality 3D scenes from a single RGB image is a challenging
task in computer graphics. Current methods often struggle with domain-specific
limitations or low-quality object generation. To address these, we propose CAST
(Component-Aligned 3D Scene Reconstruction from a Single RGB Image), a novel
method for 3D scene reconstruction and recovery. CAST starts by extracting
object-level 2D segmentation and relative depth information from the input
image, followed by using a GPT-based model to analyze inter-object spatial
relationships. This enables the understanding of how objects relate to each
other within the scene, ensuring more coherent reconstruction. CAST then
employs an occlusion-aware large-scale 3D generation model to independently
generate each object's full geometry, using MAE and point cloud conditioning to
mitigate the effects of occlusions and partial object information, ensuring
accurate alignment with the source image's geometry and texture. To align each
object with the scene, the alignment generation model computes the necessary
transformations, allowing the generated meshes to be accurately placed and
integrated into the scene's point cloud. Finally, CAST incorporates a
physics-aware correction step that leverages a fine-grained relation graph to
generate a constraint graph. This graph guides the optimization of object
poses, ensuring physical consistency and spatial coherence. By utilizing Signed
Distance Fields (SDF), the model effectively addresses issues such as
occlusions, object penetration, and floating objects, ensuring that the
generated scene accurately reflects real-world physical interactions. CAST can
be leveraged in robotics, enabling efficient real-to-simulation workflows and
providing realistic, scalable simulation environments for robotic systems.