Snap-it, Tap-it, Splat-it: Ricostruzione di Superfici Complesse con 3D Gaussian Splatting Basato su Input Tattili
Snap-it, Tap-it, Splat-it: Tactile-Informed 3D Gaussian Splatting for Reconstructing Challenging Surfaces
March 29, 2024
Autori: Mauro Comi, Alessio Tonioni, Max Yang, Jonathan Tremblay, Valts Blukis, Yijiong Lin, Nathan F. Lepora, Laurence Aitchison
cs.AI
Abstract
Il tatto e la vista vanno di pari passo, migliorando reciprocamente la nostra capacità di comprendere il mondo. Dal punto di vista della ricerca, il problema di combinare tatto e visione è poco esplorato e presenta sfide interessanti. A tal fine, proponiamo Tactile-Informed 3DGS, un approccio innovativo che incorpora dati tattili (mappe di profondità locali) con dati visivi multi-vista per ottenere la ricostruzione della superficie e la sintesi di nuove viste. Il nostro metodo ottimizza i primitivi 3D Gaussiani per modellare accuratamente la geometria dell'oggetto nei punti di contatto. Creando un framework che riduce la trasmittanza nelle posizioni di contatto, otteniamo una ricostruzione della superficie più raffinata, garantendo una mappa di profondità uniformemente liscia. Il tatto è particolarmente utile quando si considerano oggetti non-Lambertiani (ad esempio superfici lucide o riflettenti), poiché i metodi contemporanei tendono a fallire nella ricostruzione fedele delle luci speculari. Combinando visione e sensazione tattile, otteniamo ricostruzioni geometriche più accurate con un numero inferiore di immagini rispetto ai metodi precedenti. Eseguiamo valutazioni su oggetti con superfici lucide e riflettenti e dimostriamo l'efficacia del nostro approccio, offrendo miglioramenti significativi nella qualità della ricostruzione.
English
Touch and vision go hand in hand, mutually enhancing our ability to
understand the world. From a research perspective, the problem of mixing touch
and vision is underexplored and presents interesting challenges. To this end,
we propose Tactile-Informed 3DGS, a novel approach that incorporates touch data
(local depth maps) with multi-view vision data to achieve surface
reconstruction and novel view synthesis. Our method optimises 3D Gaussian
primitives to accurately model the object's geometry at points of contact. By
creating a framework that decreases the transmittance at touch locations, we
achieve a refined surface reconstruction, ensuring a uniformly smooth depth
map. Touch is particularly useful when considering non-Lambertian objects (e.g.
shiny or reflective surfaces) since contemporary methods tend to fail to
reconstruct with fidelity specular highlights. By combining vision and tactile
sensing, we achieve more accurate geometry reconstructions with fewer images
than prior methods. We conduct evaluation on objects with glossy and reflective
surfaces and demonstrate the effectiveness of our approach, offering
significant improvements in reconstruction quality.