PoseLess : Contrôle vision-articulation sans profondeur via une cartographie directe d'image avec VLM
PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM
March 10, 2025
Auteurs: Alan Dao, Dinh Bach Vu, Tuan Le Duc Anh, Bui Quang Huy
cs.AI
Résumé
Cet article présente PoseLess, un nouveau cadre de contrôle des mains robotiques qui élimine le besoin d'estimation explicite de la pose en mappant directement des images 2D aux angles des articulations à l'aide de représentations projetées. Notre approche exploite des données d'entraînement synthétiques générées par des configurations articulaires randomisées, permettant une généralisation zero-shot à des scénarios réels et un transfert inter-morphologie des mains robotiques aux mains humaines. En projetant les entrées visuelles et en utilisant un décodeur basé sur des transformateurs, PoseLess réalise un contrôle robuste et à faible latence tout en abordant des défis tels que l'ambiguïté de profondeur et la rareté des données. Les résultats expérimentaux démontrent une performance compétitive en termes de précision de prédiction des angles articulaires sans recourir à aucun ensemble de données annoté manuellement.
English
This paper introduces PoseLess, a novel framework for robot hand control that
eliminates the need for explicit pose estimation by directly mapping 2D images
to joint angles using projected representations. Our approach leverages
synthetic training data generated through randomized joint configurations,
enabling zero-shot generalization to real-world scenarios and cross-morphology
transfer from robotic to human hands. By projecting visual inputs and employing
a transformer-based decoder, PoseLess achieves robust, low-latency control
while addressing challenges such as depth ambiguity and data scarcity.
Experimental results demonstrate competitive performance in joint angle
prediction accuracy without relying on any human-labelled dataset.Summary
AI-Generated Summary