AlphaTablets: Una Rappresentazione Piana Generica per la Ricostruzione Pianare 3D da Video Monoculare
AlphaTablets: A Generic Plane Representation for 3D Planar Reconstruction from Monocular Videos
November 29, 2024
Autori: Yuze He, Wang Zhao, Shaohui Liu, Yubin Hu, Yushi Bai, Yu-Hui Wen, Yong-Jin Liu
cs.AI
Abstract
Introduciamo AlphaTablets, una rappresentazione innovativa e generica di piani 3D che presenta una superficie 3D continua e una delineazione precisa dei confini. Rappresentando i piani 3D come rettangoli con canali alfa, AlphaTablets combinano i vantaggi delle attuali rappresentazioni piane 2D e 3D, consentendo una modellazione accurata, coerente e flessibile dei piani 3D. Deriviamo una rasterizzazione differenziabile su AlphaTablets per renderizzare efficientemente i piani 3D in immagini e proponiamo un nuovo pipeline bottom-up per la ricostruzione planare 3D da video monoculari. Partendo da superpixel 2D e indizi geometrici da modelli preaddestrati, iniziamo i piani 3D come AlphaTablets e li ottimizziamo tramite rendering differenziabile. Viene introdotto uno schema efficace di fusione per facilitare la crescita e il perfezionamento di AlphaTablets. Attraverso ottimizzazioni iterative e fusioni, ricostruiamo piani 3D completi e accurati con superfici solide e confini chiari. Estesi esperimenti sul dataset ScanNet dimostrano prestazioni all'avanguardia nella ricostruzione planare 3D, sottolineando il grande potenziale di AlphaTablets come rappresentazione generica di piani 3D per varie applicazioni. La pagina del progetto è disponibile su: https://hyzcluster.github.io/alphatablets
English
We introduce AlphaTablets, a novel and generic representation of 3D planes
that features continuous 3D surface and precise boundary delineation. By
representing 3D planes as rectangles with alpha channels, AlphaTablets combine
the advantages of current 2D and 3D plane representations, enabling accurate,
consistent and flexible modeling of 3D planes. We derive differentiable
rasterization on top of AlphaTablets to efficiently render 3D planes into
images, and propose a novel bottom-up pipeline for 3D planar reconstruction
from monocular videos. Starting with 2D superpixels and geometric cues from
pre-trained models, we initialize 3D planes as AlphaTablets and optimize them
via differentiable rendering. An effective merging scheme is introduced to
facilitate the growth and refinement of AlphaTablets. Through iterative
optimization and merging, we reconstruct complete and accurate 3D planes with
solid surfaces and clear boundaries. Extensive experiments on the ScanNet
dataset demonstrate state-of-the-art performance in 3D planar reconstruction,
underscoring the great potential of AlphaTablets as a generic 3D plane
representation for various applications. Project page is available at:
https://hyzcluster.github.io/alphatabletsSummary
AI-Generated Summary