Flutuando Não Mais: Reconstrução Objeto-Plano a partir de uma Única Imagem
Floating No More: Object-Ground Reconstruction from a Single Image
July 26, 2024
Autores: Yunze Man, Yichen Sheng, Jianming Zhang, Liang-Yan Gui, Yu-Xiong Wang
cs.AI
Resumo
Avanços recentes na reconstrução de objetos 3D a partir de imagens únicas têm se concentrado principalmente em melhorar a precisão das formas dos objetos. No entanto, essas técnicas frequentemente falham em capturar com precisão a inter-relação entre o objeto, o solo e a câmera. Como resultado, os objetos reconstruídos frequentemente parecem flutuar ou inclinar quando colocados em superfícies planas. Essa limitação afeta significativamente aplicações de edição de imagens 3D, como renderização de sombras e manipulação de poses de objetos. Para abordar esse problema, apresentamos o ORG (Reconstrução de Objetos com Solo), uma nova tarefa destinada a reconstruir a geometria de objetos 3D em conjunto com a superfície do solo. Nosso método utiliza duas representações compactas em nível de pixel para descrever a relação entre câmera, objeto e solo. Experimentos mostram que o modelo ORG proposto pode reconstruir de forma eficaz a geometria objeto-solo em dados não vistos, melhorando significativamente a qualidade da geração de sombras e manipulação de poses em comparação com técnicas convencionais de reconstrução 3D a partir de uma única imagem.
English
Recent advancements in 3D object reconstruction from single images have
primarily focused on improving the accuracy of object shapes. Yet, these
techniques often fail to accurately capture the inter-relation between the
object, ground, and camera. As a result, the reconstructed objects often appear
floating or tilted when placed on flat surfaces. This limitation significantly
affects 3D-aware image editing applications like shadow rendering and object
pose manipulation. To address this issue, we introduce ORG (Object
Reconstruction with Ground), a novel task aimed at reconstructing 3D object
geometry in conjunction with the ground surface. Our method uses two compact
pixel-level representations to depict the relationship between camera, object,
and ground. Experiments show that the proposed ORG model can effectively
reconstruct object-ground geometry on unseen data, significantly enhancing the
quality of shadow generation and pose manipulation compared to conventional
single-image 3D reconstruction techniques.Summary
AI-Generated Summary