PoseLess: Controllo Visione-Articolazioni Senza Profondità tramite Mappatura Diretta dell'Immagine con VLM
PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM
March 10, 2025
Autori: Alan Dao, Dinh Bach Vu, Tuan Le Duc Anh, Bui Quang Huy
cs.AI
Abstract
Questo articolo presenta PoseLess, un nuovo framework per il controllo della mano robotica che elimina la necessità di una stima esplicita della posa mappando direttamente immagini 2D agli angoli delle giunture utilizzando rappresentazioni proiettate. Il nostro approccio sfrutta dati di addestramento sintetici generati attraverso configurazioni casuali delle giunture, consentendo una generalizzazione zero-shot a scenari del mondo reale e un trasferimento cross-morfologia da mani robotiche a mani umane. Proiettando gli input visivi e impiegando un decoder basato su transformer, PoseLess raggiunge un controllo robusto e a bassa latenza, affrontando sfide come l'ambiguità di profondità e la scarsità di dati. I risultati sperimentali dimostrano prestazioni competitive in termini di accuratezza nella previsione degli angoli delle giunture senza fare affidamento su alcun dataset etichettato manualmente.
English
This paper introduces PoseLess, a novel framework for robot hand control that
eliminates the need for explicit pose estimation by directly mapping 2D images
to joint angles using projected representations. Our approach leverages
synthetic training data generated through randomized joint configurations,
enabling zero-shot generalization to real-world scenarios and cross-morphology
transfer from robotic to human hands. By projecting visual inputs and employing
a transformer-based decoder, PoseLess achieves robust, low-latency control
while addressing challenges such as depth ambiguity and data scarcity.
Experimental results demonstrate competitive performance in joint angle
prediction accuracy without relying on any human-labelled dataset.