PoseLess: Control Visión-a-Articulación sin Profundidad mediante Mapeo Directo de Imágenes con VLM
PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM
March 10, 2025
Autores: Alan Dao, Dinh Bach Vu, Tuan Le Duc Anh, Bui Quang Huy
cs.AI
Resumen
Este artículo presenta PoseLess, un marco novedoso para el control de manos robóticas que elimina la necesidad de estimación explícita de pose al mapear directamente imágenes 2D a ángulos articulares mediante representaciones proyectadas. Nuestro enfoque aprovecha datos de entrenamiento sintéticos generados a través de configuraciones articulares aleatorizadas, permitiendo generalización zero-shot a escenarios del mundo real y transferencia inter-morfológica de manos robóticas a humanas. Al proyectar entradas visuales y emplear un decodificador basado en transformadores, PoseLess logra un control robusto y de baja latencia, abordando desafíos como la ambigüedad de profundidad y la escasez de datos. Los resultados experimentales demuestran un rendimiento competitivo en la precisión de predicción de ángulos articulares sin depender de ningún conjunto de datos etiquetado por humanos.
English
This paper introduces PoseLess, a novel framework for robot hand control that
eliminates the need for explicit pose estimation by directly mapping 2D images
to joint angles using projected representations. Our approach leverages
synthetic training data generated through randomized joint configurations,
enabling zero-shot generalization to real-world scenarios and cross-morphology
transfer from robotic to human hands. By projecting visual inputs and employing
a transformer-based decoder, PoseLess achieves robust, low-latency control
while addressing challenges such as depth ambiguity and data scarcity.
Experimental results demonstrate competitive performance in joint angle
prediction accuracy without relying on any human-labelled dataset.Summary
AI-Generated Summary