CAST: RGB 이미지에서 구성 요소 정렬 3D 장면 재구성
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image
February 18, 2025
저자: Kaixin Yao, Longwen Zhang, Xinhao Yan, Yan Zeng, Qixuan Zhang, Lan Xu, Wei Yang, Jiayuan Gu, Jingyi Yu
cs.AI
초록
단일 RGB 이미지에서 고품질 3D 장면을 복원하는 것은 컴퓨터 그래픽스 분야에서 어려운 과제입니다. 현재의 방법들은 도메인 특정적 한계나 낮은 품질의 객체 생성에 어려움을 겪는 경우가 많습니다. 이를 해결하기 위해, 우리는 CAST(Component-Aligned 3D Scene Reconstruction from a Single RGB Image)라는 새로운 3D 장면 복원 및 복구 방법을 제안합니다. CAST는 입력 이미지에서 객체 수준의 2D 세그멘테이션과 상대적 깊이 정보를 추출하는 것으로 시작하며, 이후 GPT 기반 모델을 사용하여 객체 간의 공간적 관계를 분석합니다. 이를 통해 장면 내에서 객체들이 어떻게 서로 관련되어 있는지 이해함으로써 더 일관된 복원을 가능하게 합니다. CAST는 그 다음, MAE와 포인트 클라우드 조건화를 사용하여 가려짐과 부분적 객체 정보의 영향을 완화하고, 소스 이미지의 기하학적 구조와 텍스처와 정확하게 정렬되도록 각 객체의 전체 기하학적 구조를 독립적으로 생성하기 위해 가려짐을 고려한 대규모 3D 생성 모델을 사용합니다. 각 객체를 장면에 정렬하기 위해, 정렬 생성 모델은 필요한 변환을 계산하여 생성된 메쉬가 장면의 포인트 클라우드에 정확하게 배치되고 통합될 수 있도록 합니다. 마지막으로, CAST는 세밀한 관계 그래프를 활용하여 제약 그래프를 생성하는 물리학적 인식 보정 단계를 포함합니다. 이 그래프는 객체 포즈의 최적화를 안내하여 물리적 일관성과 공간적 일관성을 보장합니다. Signed Distance Fields(SDF)를 활용함으로써, 모델은 가려짐, 객체 침투, 공중에 떠 있는 객체와 같은 문제를 효과적으로 해결하여 생성된 장면이 실제 세계의 물리적 상호작용을 정확하게 반영하도록 합니다. CAST는 로보틱스 분야에서 활용될 수 있으며, 실시간-시뮬레이션 워크플로우를 효율적으로 가능하게 하고 로봇 시스템을 위한 현실적이고 확장 가능한 시뮬레이션 환경을 제공합니다.
English
Recovering high-quality 3D scenes from a single RGB image is a challenging
task in computer graphics. Current methods often struggle with domain-specific
limitations or low-quality object generation. To address these, we propose CAST
(Component-Aligned 3D Scene Reconstruction from a Single RGB Image), a novel
method for 3D scene reconstruction and recovery. CAST starts by extracting
object-level 2D segmentation and relative depth information from the input
image, followed by using a GPT-based model to analyze inter-object spatial
relationships. This enables the understanding of how objects relate to each
other within the scene, ensuring more coherent reconstruction. CAST then
employs an occlusion-aware large-scale 3D generation model to independently
generate each object's full geometry, using MAE and point cloud conditioning to
mitigate the effects of occlusions and partial object information, ensuring
accurate alignment with the source image's geometry and texture. To align each
object with the scene, the alignment generation model computes the necessary
transformations, allowing the generated meshes to be accurately placed and
integrated into the scene's point cloud. Finally, CAST incorporates a
physics-aware correction step that leverages a fine-grained relation graph to
generate a constraint graph. This graph guides the optimization of object
poses, ensuring physical consistency and spatial coherence. By utilizing Signed
Distance Fields (SDF), the model effectively addresses issues such as
occlusions, object penetration, and floating objects, ensuring that the
generated scene accurately reflects real-world physical interactions. CAST can
be leveraged in robotics, enabling efficient real-to-simulation workflows and
providing realistic, scalable simulation environments for robotic systems.Summary
AI-Generated Summary