PoseLess: Controle Visão-Articulação sem Profundidade via Mapeamento Direto de Imagem com VLM
PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM
March 10, 2025
Autores: Alan Dao, Dinh Bach Vu, Tuan Le Duc Anh, Bui Quang Huy
cs.AI
Resumo
Este artigo apresenta o PoseLess, uma nova estrutura para controle de mãos robóticas que elimina a necessidade de estimativa explícita de pose ao mapear diretamente imagens 2D para ângulos articulares usando representações projetadas. Nossa abordagem aproveita dados de treinamento sintéticos gerados por meio de configurações articulares aleatórias, permitindo generalização zero-shot para cenários do mundo real e transferência de morfologia cruzada de mãos robóticas para humanas. Ao projetar entradas visuais e empregar um decodificador baseado em transformers, o PoseLess alcança controle robusto e de baixa latência, abordando desafios como ambiguidade de profundidade e escassez de dados. Resultados experimentais demonstram desempenho competitivo na precisão de previsão de ângulos articulares sem depender de qualquer conjunto de dados rotulado por humanos.
English
This paper introduces PoseLess, a novel framework for robot hand control that
eliminates the need for explicit pose estimation by directly mapping 2D images
to joint angles using projected representations. Our approach leverages
synthetic training data generated through randomized joint configurations,
enabling zero-shot generalization to real-world scenarios and cross-morphology
transfer from robotic to human hands. By projecting visual inputs and employing
a transformer-based decoder, PoseLess achieves robust, low-latency control
while addressing challenges such as depth ambiguity and data scarcity.
Experimental results demonstrate competitive performance in joint angle
prediction accuracy without relying on any human-labelled dataset.Summary
AI-Generated Summary