ChatPaper.aiChatPaper

CAST: Reconstrução de Cena 3D Alinhada por Componentes a partir de uma Imagem RGB

CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image

February 18, 2025
Autores: Kaixin Yao, Longwen Zhang, Xinhao Yan, Yan Zeng, Qixuan Zhang, Lan Xu, Wei Yang, Jiayuan Gu, Jingyi Yu
cs.AI

Resumo

Recuperar cenas 3D de alta qualidade a partir de uma única imagem RGB é uma tarefa desafiadora em computação gráfica. Os métodos atuais frequentemente enfrentam limitações específicas de domínio ou geração de objetos de baixa qualidade. Para abordar esses problemas, propomos o CAST (Component-Aligned 3D Scene Reconstruction from a Single RGB Image), um método inovador para reconstrução e recuperação de cenas 3D. O CAST começa extraindo segmentação 2D em nível de objeto e informações de profundidade relativa da imagem de entrada, seguido pelo uso de um modelo baseado em GPT para analisar as relações espaciais entre objetos. Isso permite compreender como os objetos se relacionam dentro da cena, garantindo uma reconstrução mais coerente. O CAST então emprega um modelo de geração 3D em grande escala consciente de oclusões para gerar independentemente a geometria completa de cada objeto, utilizando MAE e condicionamento de nuvem de pontos para mitigar os efeitos de oclusões e informações parciais dos objetos, garantindo alinhamento preciso com a geometria e textura da imagem original. Para alinhar cada objeto à cena, o modelo de geração de alinhamento calcula as transformações necessárias, permitindo que as malhas geradas sejam posicionadas e integradas com precisão na nuvem de pontos da cena. Finalmente, o CAST incorpora uma etapa de correção consciente da física que utiliza um gráfico de relações refinado para gerar um gráfico de restrições. Esse gráfico orienta a otimização das poses dos objetos, garantindo consistência física e coerência espacial. Ao utilizar Campos de Distância Assinada (SDF), o modelo aborda efetivamente problemas como oclusões, penetração de objetos e objetos flutuantes, assegurando que a cena gerada reflita com precisão as interações físicas do mundo real. O CAST pode ser aplicado em robótica, permitindo fluxos de trabalho eficientes de real para simulação e fornecendo ambientes de simulação realistas e escaláveis para sistemas robóticos.
English
Recovering high-quality 3D scenes from a single RGB image is a challenging task in computer graphics. Current methods often struggle with domain-specific limitations or low-quality object generation. To address these, we propose CAST (Component-Aligned 3D Scene Reconstruction from a Single RGB Image), a novel method for 3D scene reconstruction and recovery. CAST starts by extracting object-level 2D segmentation and relative depth information from the input image, followed by using a GPT-based model to analyze inter-object spatial relationships. This enables the understanding of how objects relate to each other within the scene, ensuring more coherent reconstruction. CAST then employs an occlusion-aware large-scale 3D generation model to independently generate each object's full geometry, using MAE and point cloud conditioning to mitigate the effects of occlusions and partial object information, ensuring accurate alignment with the source image's geometry and texture. To align each object with the scene, the alignment generation model computes the necessary transformations, allowing the generated meshes to be accurately placed and integrated into the scene's point cloud. Finally, CAST incorporates a physics-aware correction step that leverages a fine-grained relation graph to generate a constraint graph. This graph guides the optimization of object poses, ensuring physical consistency and spatial coherence. By utilizing Signed Distance Fields (SDF), the model effectively addresses issues such as occlusions, object penetration, and floating objects, ensuring that the generated scene accurately reflects real-world physical interactions. CAST can be leveraged in robotics, enabling efficient real-to-simulation workflows and providing realistic, scalable simulation environments for robotic systems.
PDF183May 15, 2025