Personalizzazione dei Gestui Manuali Basata sulla Visione da una Singola Dimostrazione

Abstract

Il riconoscimento dei gesti manuali sta diventando una modalità sempre più diffusa di interazione uomo-computer, soprattutto con la proliferazione di telecamere nei dispositivi di uso quotidiano. Nonostante i progressi continui in questo campo, la personalizzazione dei gesti è spesso poco esplorata. La personalizzazione è cruciale in quanto consente agli utenti di definire e dimostrare gesti più naturali, memorabili e accessibili. Tuttavia, la personalizzazione richiede un uso efficiente dei dati forniti dall'utente. Introduciamo un metodo che consente agli utenti di progettare facilmente gesti personalizzati con una telecamera monoculare partendo da una sola dimostrazione. Utilizziamo trasformatori e tecniche di meta-apprendimento per affrontare le sfide dell'apprendimento con pochi esempi. A differenza dei lavori precedenti, il nostro metodo supporta qualsiasi combinazione di gesti a una mano, a due mani, statici e dinamici, inclusi diversi punti di vista. Abbiamo valutato il nostro metodo di personalizzazione attraverso uno studio utente con 20 gesti raccolti da 21 partecipanti, raggiungendo una precisione media di riconoscimento fino al 97% partendo da una sola dimostrazione. Il nostro lavoro fornisce un percorso praticabile per la personalizzazione dei gesti basata sulla visione, gettando le basi per futuri progressi in questo dominio.

English

Hand gesture recognition is becoming a more prevalent mode of human-computer interaction, especially as cameras proliferate across everyday devices. Despite continued progress in this field, gesture customization is often underexplored. Customization is crucial since it enables users to define and demonstrate gestures that are more natural, memorable, and accessible. However, customization requires efficient usage of user-provided data. We introduce a method that enables users to easily design bespoke gestures with a monocular camera from one demonstration. We employ transformers and meta-learning techniques to address few-shot learning challenges. Unlike prior work, our method supports any combination of one-handed, two-handed, static, and dynamic gestures, including different viewpoints. We evaluated our customization method through a user study with 20 gestures collected from 21 participants, achieving up to 97% average recognition accuracy from one demonstration. Our work provides a viable path for vision-based gesture customization, laying the foundation for future advancements in this domain.

Personalizzazione dei Gestui Manuali Basata sulla Visione da una Singola Dimostrazione

Vision-Based Hand Gesture Customization from a Single Demonstration

Abstract

Support