ChatPaper.aiChatPaper

PoseLess: Control Visión-a-Articulación sin Profundidad mediante Mapeo Directo de Imágenes con VLM

PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM

March 10, 2025
Autores: Alan Dao, Dinh Bach Vu, Tuan Le Duc Anh, Bui Quang Huy
cs.AI

Resumen

Este artículo presenta PoseLess, un marco novedoso para el control de manos robóticas que elimina la necesidad de estimación explícita de pose al mapear directamente imágenes 2D a ángulos articulares mediante representaciones proyectadas. Nuestro enfoque aprovecha datos de entrenamiento sintéticos generados a través de configuraciones articulares aleatorizadas, permitiendo generalización zero-shot a escenarios del mundo real y transferencia inter-morfológica de manos robóticas a humanas. Al proyectar entradas visuales y emplear un decodificador basado en transformadores, PoseLess logra un control robusto y de baja latencia, abordando desafíos como la ambigüedad de profundidad y la escasez de datos. Los resultados experimentales demuestran un rendimiento competitivo en la precisión de predicción de ángulos articulares sin depender de ningún conjunto de datos etiquetado por humanos.
English
This paper introduces PoseLess, a novel framework for robot hand control that eliminates the need for explicit pose estimation by directly mapping 2D images to joint angles using projected representations. Our approach leverages synthetic training data generated through randomized joint configurations, enabling zero-shot generalization to real-world scenarios and cross-morphology transfer from robotic to human hands. By projecting visual inputs and employing a transformer-based decoder, PoseLess achieves robust, low-latency control while addressing challenges such as depth ambiguity and data scarcity. Experimental results demonstrate competitive performance in joint angle prediction accuracy without relying on any human-labelled dataset.

Summary

AI-Generated Summary

PDF32March 15, 2025