Vision-basierte Anpassung von Handgesten aus einer einzigen Demonstration
Vision-Based Hand Gesture Customization from a Single Demonstration
February 13, 2024
Autoren: Soroush Shahi, Cori Tymoszek Park, Richard Kang, Asaf Liberman, Oron Levy, Jun Gong, Abdelkareem Bedri, Gierad Laput
cs.AI
Zusammenfassung
Die Erkennung von Handgesten entwickelt sich zu einer immer verbreiteteren Form der Mensch-Computer-Interaktion, insbesondere da Kameras in Alltagsgeräten zunehmend präsent sind. Trotz fortlaufender Fortschritte auf diesem Gebiet wird die Anpassung von Gesten oft vernachlässigt. Diese Anpassung ist jedoch entscheidend, da sie Benutzern ermöglicht, Gesten zu definieren und zu demonstrieren, die natürlicher, einprägsamer und zugänglicher sind. Allerdings erfordert die Anpassung eine effiziente Nutzung der vom Benutzer bereitgestellten Daten. Wir stellen eine Methode vor, die es Benutzern ermöglicht, maßgeschneiderte Gesten mit einer monokularen Kamera anhand einer einzigen Demonstration einfach zu entwerfen. Wir verwenden Transformer und Meta-Learning-Techniken, um die Herausforderungen des Few-Shot-Learnings zu bewältigen. Im Gegensatz zu früheren Arbeiten unterstützt unsere Methode jede Kombination von einhändigen, beidhändigen, statischen und dynamischen Gesten, einschließlich verschiedener Blickwinkel. Wir haben unsere Anpassungsmethode durch eine Benutzerstudie mit 20 Gesten, die von 21 Teilnehmern gesammelt wurden, evaluiert und erreichten eine durchschnittliche Erkennungsgenauigkeit von bis zu 97 % anhand einer einzigen Demonstration. Unsere Arbeit bietet einen praktikablen Ansatz für die visuell basierte Anpassung von Gesten und legt die Grundlage für zukünftige Fortschritte in diesem Bereich.
English
Hand gesture recognition is becoming a more prevalent mode of human-computer
interaction, especially as cameras proliferate across everyday devices. Despite
continued progress in this field, gesture customization is often underexplored.
Customization is crucial since it enables users to define and demonstrate
gestures that are more natural, memorable, and accessible. However,
customization requires efficient usage of user-provided data. We introduce a
method that enables users to easily design bespoke gestures with a monocular
camera from one demonstration. We employ transformers and meta-learning
techniques to address few-shot learning challenges. Unlike prior work, our
method supports any combination of one-handed, two-handed, static, and dynamic
gestures, including different viewpoints. We evaluated our customization method
through a user study with 20 gestures collected from 21 participants, achieving
up to 97% average recognition accuracy from one demonstration. Our work
provides a viable path for vision-based gesture customization, laying the
foundation for future advancements in this domain.