AlphaTablets: Een generieke vlakke representatie voor 3D vlakke reconstructie van monoculaire video's.
AlphaTablets: A Generic Plane Representation for 3D Planar Reconstruction from Monocular Videos
November 29, 2024
Auteurs: Yuze He, Wang Zhao, Shaohui Liu, Yubin Hu, Yushi Bai, Yu-Hui Wen, Yong-Jin Liu
cs.AI
Samenvatting
We introduceren AlphaTablets, een nieuwe en generieke representatie van 3D-vlakken die continue 3D-oppervlakken en nauwkeurige grensafbakening biedt. Door 3D-vlakken voor te stellen als rechthoeken met alfakanalen, combineren AlphaTablets de voordelen van huidige 2D- en 3D-vlakrepresentaties, waardoor nauwkeurige, consistente en flexibele modellering van 3D-vlakken mogelijk is. We leiden differentieerbare rasterisatie af bovenop AlphaTablets om 3D-vlakken efficiënt om te zetten naar afbeeldingen, en stellen een nieuwe bottom-up pijplijn voor 3D-vlakreconstructie van monoculaire video's voor. Door te beginnen met 2D-superpixels en geometrische aanwijzingen van vooraf getrainde modellen, initialiseren we 3D-vlakken als AlphaTablets en optimaliseren ze via differentieerbare rendering. Een effectief samenvoegingsschema wordt geïntroduceerd om de groei en verfijning van AlphaTablets te vergemakkelijken. Door iteratieve optimalisatie en samenvoeging reconstrueren we complete en nauwkeurige 3D-vlakken met solide oppervlakken en duidelijke grenzen. Uitgebreide experimenten op de ScanNet-dataset tonen een toonaangevende prestatie in 3D-vlakreconstructie aan, waarbij het grote potentieel van AlphaTablets als generieke 3D-vlakrepresentatie voor diverse toepassingen wordt benadrukt. Het projectpagina is beschikbaar op: https://hyzcluster.github.io/alphatablets
English
We introduce AlphaTablets, a novel and generic representation of 3D planes
that features continuous 3D surface and precise boundary delineation. By
representing 3D planes as rectangles with alpha channels, AlphaTablets combine
the advantages of current 2D and 3D plane representations, enabling accurate,
consistent and flexible modeling of 3D planes. We derive differentiable
rasterization on top of AlphaTablets to efficiently render 3D planes into
images, and propose a novel bottom-up pipeline for 3D planar reconstruction
from monocular videos. Starting with 2D superpixels and geometric cues from
pre-trained models, we initialize 3D planes as AlphaTablets and optimize them
via differentiable rendering. An effective merging scheme is introduced to
facilitate the growth and refinement of AlphaTablets. Through iterative
optimization and merging, we reconstruct complete and accurate 3D planes with
solid surfaces and clear boundaries. Extensive experiments on the ScanNet
dataset demonstrate state-of-the-art performance in 3D planar reconstruction,
underscoring the great potential of AlphaTablets as a generic 3D plane
representation for various applications. Project page is available at:
https://hyzcluster.github.io/alphatablets