Personalización de Gestos Manuales Basada en Visión a partir de una Única Demostración
Vision-Based Hand Gesture Customization from a Single Demonstration
February 13, 2024
Autores: Soroush Shahi, Cori Tymoszek Park, Richard Kang, Asaf Liberman, Oron Levy, Jun Gong, Abdelkareem Bedri, Gierad Laput
cs.AI
Resumen
El reconocimiento de gestos manuales se está convirtiendo en un modo de interacción humano-computadora cada vez más prevalente, especialmente a medida que las cámaras proliferan en los dispositivos cotidianos. A pesar del progreso continuo en este campo, la personalización de gestos a menudo no se explora lo suficiente. La personalización es crucial, ya que permite a los usuarios definir y demostrar gestos que son más naturales, memorables y accesibles. Sin embargo, la personalización requiere un uso eficiente de los datos proporcionados por el usuario. Introducimos un método que permite a los usuarios diseñar fácilmente gestos personalizados con una cámara monocular a partir de una sola demostración. Empleamos transformadores y técnicas de meta-aprendizaje para abordar los desafíos del aprendizaje con pocos ejemplos. A diferencia de trabajos anteriores, nuestro método admite cualquier combinación de gestos con una mano, dos manos, estáticos y dinámicos, incluyendo diferentes puntos de vista. Evaluamos nuestro método de personalización mediante un estudio de usuarios con 20 gestos recopilados de 21 participantes, logrando una precisión promedio de reconocimiento de hasta el 97% a partir de una sola demostración. Nuestro trabajo proporciona un camino viable para la personalización de gestos basada en visión, sentando las bases para futuros avances en este dominio.
English
Hand gesture recognition is becoming a more prevalent mode of human-computer
interaction, especially as cameras proliferate across everyday devices. Despite
continued progress in this field, gesture customization is often underexplored.
Customization is crucial since it enables users to define and demonstrate
gestures that are more natural, memorable, and accessible. However,
customization requires efficient usage of user-provided data. We introduce a
method that enables users to easily design bespoke gestures with a monocular
camera from one demonstration. We employ transformers and meta-learning
techniques to address few-shot learning challenges. Unlike prior work, our
method supports any combination of one-handed, two-handed, static, and dynamic
gestures, including different viewpoints. We evaluated our customization method
through a user study with 20 gestures collected from 21 participants, achieving
up to 97% average recognition accuracy from one demonstration. Our work
provides a viable path for vision-based gesture customization, laying the
foundation for future advancements in this domain.