PoseLess: Controle Visão-Articulação sem Profundidade via Mapeamento Direto de Imagem com VLM

Resumo

Este artigo apresenta o PoseLess, uma nova estrutura para controle de mãos robóticas que elimina a necessidade de estimativa explícita de pose ao mapear diretamente imagens 2D para ângulos articulares usando representações projetadas. Nossa abordagem aproveita dados de treinamento sintéticos gerados por meio de configurações articulares aleatórias, permitindo generalização zero-shot para cenários do mundo real e transferência de morfologia cruzada de mãos robóticas para humanas. Ao projetar entradas visuais e empregar um decodificador baseado em transformers, o PoseLess alcança controle robusto e de baixa latência, abordando desafios como ambiguidade de profundidade e escassez de dados. Resultados experimentais demonstram desempenho competitivo na precisão de previsão de ângulos articulares sem depender de qualquer conjunto de dados rotulado por humanos.

English

This paper introduces PoseLess, a novel framework for robot hand control that eliminates the need for explicit pose estimation by directly mapping 2D images to joint angles using projected representations. Our approach leverages synthetic training data generated through randomized joint configurations, enabling zero-shot generalization to real-world scenarios and cross-morphology transfer from robotic to human hands. By projecting visual inputs and employing a transformer-based decoder, PoseLess achieves robust, low-latency control while addressing challenges such as depth ambiguity and data scarcity. Experimental results demonstrate competitive performance in joint angle prediction accuracy without relying on any human-labelled dataset.

PoseLess: Controle Visão-Articulação sem Profundidade via Mapeamento Direto de Imagem com VLM

PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM

Resumo

Support