CAST: Трехмерная реконструкция сцены с выравниванием компонентов по RGB-изображению
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image
February 18, 2025
Авторы: Kaixin Yao, Longwen Zhang, Xinhao Yan, Yan Zeng, Qixuan Zhang, Lan Xu, Wei Yang, Jiayuan Gu, Jingyi Yu
cs.AI
Аннотация
Восстановление высококачественных 3D-сцен из одного RGB-изображения является сложной задачей в области компьютерной графики. Современные методы часто сталкиваются с ограничениями, специфичными для конкретных областей, или генерируют объекты низкого качества. Для решения этих проблем мы предлагаем CAST (Component-Aligned 3D Scene Reconstruction from a Single RGB Image) — новый метод реконструкции и восстановления 3D-сцен. CAST начинается с извлечения объектно-ориентированной 2D-сегментации и информации об относительной глубине из входного изображения, после чего использует модель на основе GPT для анализа пространственных взаимосвязей между объектами. Это позволяет понять, как объекты соотносятся друг с другом в сцене, обеспечивая более согласованную реконструкцию. Затем CAST применяет модель крупномасштабной 3D-генерации, учитывающую окклюзии, для независимого создания полной геометрии каждого объекта, используя MAE и кондиционирование на основе облака точек для минимизации влияния окклюзий и частичной информации об объектах, что гарантирует точное соответствие геометрии и текстуры исходного изображения. Для согласования каждого объекта со сценой модель генерации выравнивания вычисляет необходимые преобразования, позволяя точно размещать и интегрировать сгенерированные меши в облако точек сцены. Наконец, CAST включает этап коррекции, учитывающий физику, который использует детализированный граф отношений для создания графа ограничений. Этот граф направляет оптимизацию поз объектов, обеспечивая физическую согласованность и пространственную когерентность. Используя поля знаковых расстояний (Signed Distance Fields, SDF), модель эффективно решает проблемы, такие как окклюзии, пересечение объектов и плавающие объекты, гарантируя, что сгенерированная сцена точно отражает реальные физические взаимодействия. CAST может быть использован в робототехнике, обеспечивая эффективные рабочие процессы от реального мира к симуляции и предоставляя реалистичные, масштабируемые среды симуляции для роботизированных систем.
English
Recovering high-quality 3D scenes from a single RGB image is a challenging
task in computer graphics. Current methods often struggle with domain-specific
limitations or low-quality object generation. To address these, we propose CAST
(Component-Aligned 3D Scene Reconstruction from a Single RGB Image), a novel
method for 3D scene reconstruction and recovery. CAST starts by extracting
object-level 2D segmentation and relative depth information from the input
image, followed by using a GPT-based model to analyze inter-object spatial
relationships. This enables the understanding of how objects relate to each
other within the scene, ensuring more coherent reconstruction. CAST then
employs an occlusion-aware large-scale 3D generation model to independently
generate each object's full geometry, using MAE and point cloud conditioning to
mitigate the effects of occlusions and partial object information, ensuring
accurate alignment with the source image's geometry and texture. To align each
object with the scene, the alignment generation model computes the necessary
transformations, allowing the generated meshes to be accurately placed and
integrated into the scene's point cloud. Finally, CAST incorporates a
physics-aware correction step that leverages a fine-grained relation graph to
generate a constraint graph. This graph guides the optimization of object
poses, ensuring physical consistency and spatial coherence. By utilizing Signed
Distance Fields (SDF), the model effectively addresses issues such as
occlusions, object penetration, and floating objects, ensuring that the
generated scene accurately reflects real-world physical interactions. CAST can
be leveraged in robotics, enabling efficient real-to-simulation workflows and
providing realistic, scalable simulation environments for robotic systems.Summary
AI-Generated Summary