ChatPaper.aiChatPaper

PoseLess: Diepte-vrije Visie-naar-Gewrichtsbesturing via Directe Beeldtoewijzing met VLM

PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM

March 10, 2025
Auteurs: Alan Dao, Dinh Bach Vu, Tuan Le Duc Anh, Bui Quang Huy
cs.AI

Samenvatting

Dit artikel introduceert PoseLess, een nieuw framework voor robot-handbesturing dat de noodzaak voor expliciete pose-schatting elimineert door direct 2D-beelden naar gewrichtshoeken te mappen met behulp van geprojecteerde representaties. Onze aanpak maakt gebruik van synthetische trainingsgegevens die gegenereerd zijn via gerandomiseerde gewrichtsconfiguraties, wat zero-shot generalisatie naar real-world scenario's en cross-morfologie overdracht van robot- naar menselijke handen mogelijk maakt. Door visuele invoer te projecteren en een transformer-gebaseerde decoder te gebruiken, bereikt PoseLess robuuste, lage-latency besturing terwijl het uitdagingen zoals diepte-ambiguïteit en dataschaarste aanpakt. Experimentele resultaten tonen competitieve prestaties in de nauwkeurigheid van gewrichtshoekvoorspelling zonder gebruik te maken van enig door mensen gelabelde dataset.
English
This paper introduces PoseLess, a novel framework for robot hand control that eliminates the need for explicit pose estimation by directly mapping 2D images to joint angles using projected representations. Our approach leverages synthetic training data generated through randomized joint configurations, enabling zero-shot generalization to real-world scenarios and cross-morphology transfer from robotic to human hands. By projecting visual inputs and employing a transformer-based decoder, PoseLess achieves robust, low-latency control while addressing challenges such as depth ambiguity and data scarcity. Experimental results demonstrate competitive performance in joint angle prediction accuracy without relying on any human-labelled dataset.

Summary

AI-Generated Summary

PDF32March 15, 2025