GazeGen: Interacción del Usuario Dirigida por la Mirada para la Generación de Contenido Visual
GazeGen: Gaze-Driven User Interaction for Visual Content Generation
November 7, 2024
Autores: He-Yen Hsieh, Ziyun Li, Sai Qian Zhang, Wei-Te Mark Ting, Kao-Den Chang, Barbara De Salvo, Chiao Liu, H. T. Kung
cs.AI
Resumen
Presentamos GazeGen, un sistema de interacción de usuario que genera contenido visual (imágenes y videos) para las ubicaciones indicadas por la mirada del usuario. GazeGen permite la manipulación intuitiva del contenido visual al dirigirse a las regiones de interés con la mirada. Utilizando técnicas avanzadas de detección de objetos e IA generativa, GazeGen realiza la adición/eliminación, reposicionamiento y cambios de material superficial de objetos en imágenes controlados por la mirada, y convierte imágenes estáticas en videos. El núcleo de GazeGen es el agente DFT Gaze (Mirada Destilada y Ajustada), un modelo ultraligero con solo 281K parámetros, que realiza predicciones de mirada precisas en tiempo real adaptadas a los ojos de usuarios individuales en pequeños dispositivos de borde. GazeGen es el primer sistema que combina la generación de contenido visual con la estimación de la mirada en tiempo real, hecho posible exclusivamente por DFT Gaze. Esta estimación de mirada en tiempo real permite varias tareas de generación de contenido visual, todas controladas por la mirada del usuario. La entrada para DFT Gaze son las imágenes oculares del usuario, mientras que las entradas para la generación de contenido visual son la vista del usuario y el punto de mirada predicho por DFT Gaze. Para lograr predicciones de mirada eficientes, derivamos el modelo pequeño de un modelo grande (10 veces más grande) mediante novedosas técnicas de destilación de conocimiento y adaptación personal. Integramos la destilación de conocimiento con un autoencoder enmascarado, desarrollando un modelo de estimación de mirada compacto pero potente. Este modelo se ajusta aún más con Adaptadores, permitiendo predicciones de mirada altamente precisas y personalizadas con una mínima entrada del usuario. DFT Gaze garantiza un seguimiento de la mirada de baja latencia y preciso, apoyando una amplia gama de tareas impulsadas por la mirada. Validamos el rendimiento de DFT Gaze en los benchmarks AEA y OpenEDS2020, demostrando un bajo error angular de mirada y baja latencia en el dispositivo de borde (Raspberry Pi 4). Además, describimos aplicaciones de GazeGen, ilustrando su versatilidad y efectividad en varios escenarios de uso.
English
We present GazeGen, a user interaction system that generates visual content
(images and videos) for locations indicated by the user's eye gaze. GazeGen
allows intuitive manipulation of visual content by targeting regions of
interest with gaze. Using advanced techniques in object detection and
generative AI, GazeGen performs gaze-controlled image adding/deleting,
repositioning, and surface material changes of image objects, and converts
static images into videos. Central to GazeGen is the DFT Gaze (Distilled and
Fine-Tuned Gaze) agent, an ultra-lightweight model with only 281K parameters,
performing accurate real-time gaze predictions tailored to individual users'
eyes on small edge devices. GazeGen is the first system to combine visual
content generation with real-time gaze estimation, made possible exclusively by
DFT Gaze. This real-time gaze estimation enables various visual content
generation tasks, all controlled by the user's gaze. The input for DFT Gaze is
the user's eye images, while the inputs for visual content generation are the
user's view and the predicted gaze point from DFT Gaze. To achieve efficient
gaze predictions, we derive the small model from a large model (10x larger) via
novel knowledge distillation and personal adaptation techniques. We integrate
knowledge distillation with a masked autoencoder, developing a compact yet
powerful gaze estimation model. This model is further fine-tuned with Adapters,
enabling highly accurate and personalized gaze predictions with minimal user
input. DFT Gaze ensures low-latency and precise gaze tracking, supporting a
wide range of gaze-driven tasks. We validate the performance of DFT Gaze on AEA
and OpenEDS2020 benchmarks, demonstrating low angular gaze error and low
latency on the edge device (Raspberry Pi 4). Furthermore, we describe
applications of GazeGen, illustrating its versatility and effectiveness in
various usage scenarios.