Niet langer zwevend: Object-Grond Reconstructie vanuit een Enkele Afbeelding
Floating No More: Object-Ground Reconstruction from a Single Image
July 26, 2024
Auteurs: Yunze Man, Yichen Sheng, Jianming Zhang, Liang-Yan Gui, Yu-Xiong Wang
cs.AI
Samenvatting
Recente vooruitgang in 3D-objectreconstructie vanuit enkele afbeeldingen heeft zich voornamelijk gericht op het verbeteren van de nauwkeurigheid van objectvormen. Toch slagen deze technieken er vaak niet in om de onderlinge relatie tussen het object, de grond en de camera nauwkeurig vast te leggen. Hierdoor lijken de gereconstrueerde objecten vaak te zweven of scheef te staan wanneer ze op vlakke oppervlakken worden geplaatst. Deze beperking heeft een aanzienlijke impact op 3D-bewuste beeldbewerkingsapplicaties zoals schaduwweergave en objectpose-manipulatie. Om dit probleem aan te pakken, introduceren we ORG (Object Reconstruction with Ground), een nieuwe taak die gericht is op het reconstrueren van 3D-objectgeometrie in combinatie met het grondoppervlak. Onze methode gebruikt twee compacte pixelgebaseerde representaties om de relatie tussen camera, object en grond weer te geven. Experimenten tonen aan dat het voorgestelde ORG-model effectief object-grondgeometrie kan reconstrueren op onbekende data, wat de kwaliteit van schaduwgeneratie en pose-manipulatie aanzienlijk verbetert in vergelijking met conventionele 3D-reconstructietechnieken vanuit enkele afbeeldingen.
English
Recent advancements in 3D object reconstruction from single images have
primarily focused on improving the accuracy of object shapes. Yet, these
techniques often fail to accurately capture the inter-relation between the
object, ground, and camera. As a result, the reconstructed objects often appear
floating or tilted when placed on flat surfaces. This limitation significantly
affects 3D-aware image editing applications like shadow rendering and object
pose manipulation. To address this issue, we introduce ORG (Object
Reconstruction with Ground), a novel task aimed at reconstructing 3D object
geometry in conjunction with the ground surface. Our method uses two compact
pixel-level representations to depict the relationship between camera, object,
and ground. Experiments show that the proposed ORG model can effectively
reconstruct object-ground geometry on unseen data, significantly enhancing the
quality of shadow generation and pose manipulation compared to conventional
single-image 3D reconstruction techniques.