ChatPaper.aiChatPaper

PoseLess: VLM을 통한 직접 이미지 매핑 기반의 깊이 정보 없이 시각에서 관절 제어로

PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM

March 10, 2025
저자: Alan Dao, Dinh Bach Vu, Tuan Le Duc Anh, Bui Quang Huy
cs.AI

초록

본 논문은 명시적인 포즈 추정 없이 2D 이미지를 관절 각도로 직접 매핑하기 위해 투영된 표현을 사용하는 로봇 손 제어를 위한 새로운 프레임워크인 PoseLess를 소개합니다. 우리의 접근 방식은 무작위 관절 구성으로 생성된 합성 학습 데이터를 활용하여, 실제 시나리오에 대한 제로샷 일반화와 로봇 손에서 인간 손으로의 교차 형태 전달을 가능하게 합니다. 시각적 입력을 투영하고 트랜스포머 기반 디코더를 사용함으로써, PoseLess는 깊이 모호성 및 데이터 부족과 같은 문제를 해결하면서도 견고하고 낮은 지연 시간의 제어를 달성합니다. 실험 결과는 인간이 라벨링한 데이터셋에 의존하지 않으면서도 관절 각도 예측 정확도에서 경쟁력 있는 성능을 보여줍니다.
English
This paper introduces PoseLess, a novel framework for robot hand control that eliminates the need for explicit pose estimation by directly mapping 2D images to joint angles using projected representations. Our approach leverages synthetic training data generated through randomized joint configurations, enabling zero-shot generalization to real-world scenarios and cross-morphology transfer from robotic to human hands. By projecting visual inputs and employing a transformer-based decoder, PoseLess achieves robust, low-latency control while addressing challenges such as depth ambiguity and data scarcity. Experimental results demonstrate competitive performance in joint angle prediction accuracy without relying on any human-labelled dataset.

Summary

AI-Generated Summary

PDF32March 15, 2025