CAST: Reconstrucción de Escenas 3D Alineadas por Componentes a partir de una Imagen RGB
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image
February 18, 2025
Autores: Kaixin Yao, Longwen Zhang, Xinhao Yan, Yan Zeng, Qixuan Zhang, Lan Xu, Wei Yang, Jiayuan Gu, Jingyi Yu
cs.AI
Resumen
Recuperar escenas 3D de alta calidad a partir de una única imagen RGB es una tarea desafiante en el campo de los gráficos por computadora. Los métodos actuales suelen enfrentarse a limitaciones específicas de dominio o a la generación de objetos de baja calidad. Para abordar estos problemas, proponemos CAST (Reconstrucción de Escenas 3D Alineadas por Componentes a partir de una Imagen RGB Única), un método novedoso para la reconstrucción y recuperación de escenas 3D. CAST comienza extrayendo información de segmentación 2D a nivel de objeto y de profundidad relativa de la imagen de entrada, seguido del uso de un modelo basado en GPT para analizar las relaciones espaciales entre objetos. Esto permite comprender cómo los objetos se relacionan entre sí dentro de la escena, asegurando una reconstrucción más coherente. Luego, CAST emplea un modelo de generación 3D a gran escala consciente de las oclusiones para generar de manera independiente la geometría completa de cada objeto, utilizando MAE y condicionamiento de nubes de puntos para mitigar los efectos de las oclusiones y la información parcial de los objetos, asegurando una alineación precisa con la geometría y textura de la imagen fuente. Para alinear cada objeto con la escena, el modelo de generación de alineación calcula las transformaciones necesarias, permitiendo que las mallas generadas se coloquen e integren con precisión en la nube de puntos de la escena. Finalmente, CAST incorpora un paso de corrección consciente de la física que aprovecha un gráfico de relaciones de grano fino para generar un gráfico de restricciones. Este gráfico guía la optimización de las poses de los objetos, asegurando consistencia física y coherencia espacial. Al utilizar Campos de Distancia con Signo (SDF), el modelo aborda eficazmente problemas como oclusiones, penetración de objetos y objetos flotantes, asegurando que la escena generada refleje con precisión las interacciones físicas del mundo real. CAST puede ser aprovechado en robótica, permitiendo flujos de trabajo eficientes de real a simulación y proporcionando entornos de simulación realistas y escalables para sistemas robóticos.
English
Recovering high-quality 3D scenes from a single RGB image is a challenging
task in computer graphics. Current methods often struggle with domain-specific
limitations or low-quality object generation. To address these, we propose CAST
(Component-Aligned 3D Scene Reconstruction from a Single RGB Image), a novel
method for 3D scene reconstruction and recovery. CAST starts by extracting
object-level 2D segmentation and relative depth information from the input
image, followed by using a GPT-based model to analyze inter-object spatial
relationships. This enables the understanding of how objects relate to each
other within the scene, ensuring more coherent reconstruction. CAST then
employs an occlusion-aware large-scale 3D generation model to independently
generate each object's full geometry, using MAE and point cloud conditioning to
mitigate the effects of occlusions and partial object information, ensuring
accurate alignment with the source image's geometry and texture. To align each
object with the scene, the alignment generation model computes the necessary
transformations, allowing the generated meshes to be accurately placed and
integrated into the scene's point cloud. Finally, CAST incorporates a
physics-aware correction step that leverages a fine-grained relation graph to
generate a constraint graph. This graph guides the optimization of object
poses, ensuring physical consistency and spatial coherence. By utilizing Signed
Distance Fields (SDF), the model effectively addresses issues such as
occlusions, object penetration, and floating objects, ensuring that the
generated scene accurately reflects real-world physical interactions. CAST can
be leveraged in robotics, enabling efficient real-to-simulation workflows and
providing realistic, scalable simulation environments for robotic systems.Summary
AI-Generated Summary