ChatPaper.aiChatPaper

PoseLess: Управление от изображения к суставам без использования данных о глубине через прямое отображение изображений с помощью VLM

PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM

March 10, 2025
Авторы: Alan Dao, Dinh Bach Vu, Tuan Le Duc Anh, Bui Quang Huy
cs.AI

Аннотация

В данной статье представлен PoseLess — новый фреймворк для управления роботизированной рукой, который устраняет необходимость явного оценивания позы, напрямую отображая 2D-изображения в углы сочленений с использованием проекционных представлений. Наш подход использует синтетические обучающие данные, сгенерированные через случайные конфигурации сочленений, что позволяет достичь обобщения в условиях нулевого сценария (zero-shot) для реальных ситуаций и переноса между морфологиями — от роботизированных к человеческим рукам. Проецируя визуальные входные данные и применяя декодер на основе трансформеров, PoseLess обеспечивает устойчивое управление с низкой задержкой, одновременно решая такие проблемы, как неоднозначность глубины и недостаток данных. Экспериментальные результаты демонстрируют конкурентоспособную точность предсказания углов сочленений без использования каких-либо размеченных человеком наборов данных.
English
This paper introduces PoseLess, a novel framework for robot hand control that eliminates the need for explicit pose estimation by directly mapping 2D images to joint angles using projected representations. Our approach leverages synthetic training data generated through randomized joint configurations, enabling zero-shot generalization to real-world scenarios and cross-morphology transfer from robotic to human hands. By projecting visual inputs and employing a transformer-based decoder, PoseLess achieves robust, low-latency control while addressing challenges such as depth ambiguity and data scarcity. Experimental results demonstrate competitive performance in joint angle prediction accuracy without relying on any human-labelled dataset.

Summary

AI-Generated Summary

PDF32March 15, 2025