Personalizzazione dei Gestui Manuali Basata sulla Visione da una Singola Dimostrazione
Vision-Based Hand Gesture Customization from a Single Demonstration
February 13, 2024
Autori: Soroush Shahi, Cori Tymoszek Park, Richard Kang, Asaf Liberman, Oron Levy, Jun Gong, Abdelkareem Bedri, Gierad Laput
cs.AI
Abstract
Il riconoscimento dei gesti manuali sta diventando una modalità sempre più diffusa di interazione uomo-computer, soprattutto con la proliferazione di telecamere nei dispositivi di uso quotidiano. Nonostante i progressi continui in questo campo, la personalizzazione dei gesti è spesso poco esplorata. La personalizzazione è cruciale in quanto consente agli utenti di definire e dimostrare gesti più naturali, memorabili e accessibili. Tuttavia, la personalizzazione richiede un uso efficiente dei dati forniti dall'utente. Introduciamo un metodo che consente agli utenti di progettare facilmente gesti personalizzati con una telecamera monoculare partendo da una sola dimostrazione. Utilizziamo trasformatori e tecniche di meta-apprendimento per affrontare le sfide dell'apprendimento con pochi esempi. A differenza dei lavori precedenti, il nostro metodo supporta qualsiasi combinazione di gesti a una mano, a due mani, statici e dinamici, inclusi diversi punti di vista. Abbiamo valutato il nostro metodo di personalizzazione attraverso uno studio utente con 20 gesti raccolti da 21 partecipanti, raggiungendo una precisione media di riconoscimento fino al 97% partendo da una sola dimostrazione. Il nostro lavoro fornisce un percorso praticabile per la personalizzazione dei gesti basata sulla visione, gettando le basi per futuri progressi in questo dominio.
English
Hand gesture recognition is becoming a more prevalent mode of human-computer
interaction, especially as cameras proliferate across everyday devices. Despite
continued progress in this field, gesture customization is often underexplored.
Customization is crucial since it enables users to define and demonstrate
gestures that are more natural, memorable, and accessible. However,
customization requires efficient usage of user-provided data. We introduce a
method that enables users to easily design bespoke gestures with a monocular
camera from one demonstration. We employ transformers and meta-learning
techniques to address few-shot learning challenges. Unlike prior work, our
method supports any combination of one-handed, two-handed, static, and dynamic
gestures, including different viewpoints. We evaluated our customization method
through a user study with 20 gestures collected from 21 participants, achieving
up to 97% average recognition accuracy from one demonstration. Our work
provides a viable path for vision-based gesture customization, laying the
foundation for future advancements in this domain.