PoseLess: Controllo Visione-Articolazioni Senza Profondità tramite Mappatura Diretta dell'Immagine con VLM

Abstract

Questo articolo presenta PoseLess, un nuovo framework per il controllo della mano robotica che elimina la necessità di una stima esplicita della posa mappando direttamente immagini 2D agli angoli delle giunture utilizzando rappresentazioni proiettate. Il nostro approccio sfrutta dati di addestramento sintetici generati attraverso configurazioni casuali delle giunture, consentendo una generalizzazione zero-shot a scenari del mondo reale e un trasferimento cross-morfologia da mani robotiche a mani umane. Proiettando gli input visivi e impiegando un decoder basato su transformer, PoseLess raggiunge un controllo robusto e a bassa latenza, affrontando sfide come l'ambiguità di profondità e la scarsità di dati. I risultati sperimentali dimostrano prestazioni competitive in termini di accuratezza nella previsione degli angoli delle giunture senza fare affidamento su alcun dataset etichettato manualmente.

English

This paper introduces PoseLess, a novel framework for robot hand control that eliminates the need for explicit pose estimation by directly mapping 2D images to joint angles using projected representations. Our approach leverages synthetic training data generated through randomized joint configurations, enabling zero-shot generalization to real-world scenarios and cross-morphology transfer from robotic to human hands. By projecting visual inputs and employing a transformer-based decoder, PoseLess achieves robust, low-latency control while addressing challenges such as depth ambiguity and data scarcity. Experimental results demonstrate competitive performance in joint angle prediction accuracy without relying on any human-labelled dataset.

PoseLess: Controllo Visione-Articolazioni Senza Profondità tramite Mappatura Diretta dell'Immagine con VLM

PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM

Abstract

Support