CAST: RGB画像からのコンポーネント整列型3Dシーン再構築
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image
February 18, 2025
著者: Kaixin Yao, Longwen Zhang, Xinhao Yan, Yan Zeng, Qixuan Zhang, Lan Xu, Wei Yang, Jiayuan Gu, Jingyi Yu
cs.AI
要旨
単一のRGB画像から高品質な3Dシーンを復元することは、コンピュータグラフィックスにおける難しい課題です。現在の手法では、ドメイン固有の制限や低品質なオブジェクト生成に悩まされることが多いです。これらの問題に対処するため、我々はCAST(Component-Aligned 3D Scene Reconstruction from a Single RGB Image)を提案します。これは、3Dシーンの再構築と復元のための新しい手法です。CASTは、入力画像からオブジェクトレベルの2Dセグメンテーションと相対的な深度情報を抽出することから始め、その後、GPTベースのモデルを使用してオブジェクト間の空間関係を分析します。これにより、シーン内のオブジェクトがどのように関連しているかを理解し、より一貫性のある再構築を実現します。次に、CASTはオクルージョン対応の大規模3D生成モデルを使用して、各オブジェクトの完全なジオメトリを独立して生成します。MAEとポイントクラウドの条件付けを使用して、オクルージョンや部分的なオブジェクト情報の影響を軽減し、ソース画像のジオメトリとテクスチャに正確に整合することを保証します。各オブジェクトをシーンに整合させるために、アライメント生成モデルが必要な変換を計算し、生成されたメッシュを正確に配置してシーンのポイントクラウドに統合します。最後に、CASTは物理を意識した補正ステップを組み込み、細かい関係グラフを活用して制約グラフを生成します。このグラフはオブジェクトのポーズの最適化を導き、物理的な一貫性と空間的な整合性を保証します。Signed Distance Fields(SDF)を利用することで、モデルはオクルージョン、オブジェクトの貫通、浮遊オブジェクトなどの問題を効果的に解決し、生成されたシーンが現実世界の物理的相互作用を正確に反映することを保証します。CASTはロボティクスにおいて活用可能で、現実からシミュレーションへの効率的なワークフローを可能にし、ロボットシステムのための現実的でスケーラブルなシミュレーション環境を提供します。
English
Recovering high-quality 3D scenes from a single RGB image is a challenging
task in computer graphics. Current methods often struggle with domain-specific
limitations or low-quality object generation. To address these, we propose CAST
(Component-Aligned 3D Scene Reconstruction from a Single RGB Image), a novel
method for 3D scene reconstruction and recovery. CAST starts by extracting
object-level 2D segmentation and relative depth information from the input
image, followed by using a GPT-based model to analyze inter-object spatial
relationships. This enables the understanding of how objects relate to each
other within the scene, ensuring more coherent reconstruction. CAST then
employs an occlusion-aware large-scale 3D generation model to independently
generate each object's full geometry, using MAE and point cloud conditioning to
mitigate the effects of occlusions and partial object information, ensuring
accurate alignment with the source image's geometry and texture. To align each
object with the scene, the alignment generation model computes the necessary
transformations, allowing the generated meshes to be accurately placed and
integrated into the scene's point cloud. Finally, CAST incorporates a
physics-aware correction step that leverages a fine-grained relation graph to
generate a constraint graph. This graph guides the optimization of object
poses, ensuring physical consistency and spatial coherence. By utilizing Signed
Distance Fields (SDF), the model effectively addresses issues such as
occlusions, object penetration, and floating objects, ensuring that the
generated scene accurately reflects real-world physical interactions. CAST can
be leveraged in robotics, enabling efficient real-to-simulation workflows and
providing realistic, scalable simulation environments for robotic systems.Summary
AI-Generated Summary