GazeGen: Interacción del Usuario Dirigida por la Mirada para la Generación de Contenido Visual

Resumen

Presentamos GazeGen, un sistema de interacción de usuario que genera contenido visual (imágenes y videos) para las ubicaciones indicadas por la mirada del usuario. GazeGen permite la manipulación intuitiva del contenido visual al dirigirse a las regiones de interés con la mirada. Utilizando técnicas avanzadas de detección de objetos e IA generativa, GazeGen realiza la adición/eliminación, reposicionamiento y cambios de material superficial de objetos en imágenes controlados por la mirada, y convierte imágenes estáticas en videos. El núcleo de GazeGen es el agente DFT Gaze (Mirada Destilada y Ajustada), un modelo ultraligero con solo 281K parámetros, que realiza predicciones de mirada precisas en tiempo real adaptadas a los ojos de usuarios individuales en pequeños dispositivos de borde. GazeGen es el primer sistema que combina la generación de contenido visual con la estimación de la mirada en tiempo real, hecho posible exclusivamente por DFT Gaze. Esta estimación de mirada en tiempo real permite varias tareas de generación de contenido visual, todas controladas por la mirada del usuario. La entrada para DFT Gaze son las imágenes oculares del usuario, mientras que las entradas para la generación de contenido visual son la vista del usuario y el punto de mirada predicho por DFT Gaze. Para lograr predicciones de mirada eficientes, derivamos el modelo pequeño de un modelo grande (10 veces más grande) mediante novedosas técnicas de destilación de conocimiento y adaptación personal. Integramos la destilación de conocimiento con un autoencoder enmascarado, desarrollando un modelo de estimación de mirada compacto pero potente. Este modelo se ajusta aún más con Adaptadores, permitiendo predicciones de mirada altamente precisas y personalizadas con una mínima entrada del usuario. DFT Gaze garantiza un seguimiento de la mirada de baja latencia y preciso, apoyando una amplia gama de tareas impulsadas por la mirada. Validamos el rendimiento de DFT Gaze en los benchmarks AEA y OpenEDS2020, demostrando un bajo error angular de mirada y baja latencia en el dispositivo de borde (Raspberry Pi 4). Además, describimos aplicaciones de GazeGen, ilustrando su versatilidad y efectividad en varios escenarios de uso.

English

We present GazeGen, a user interaction system that generates visual content (images and videos) for locations indicated by the user's eye gaze. GazeGen allows intuitive manipulation of visual content by targeting regions of interest with gaze. Using advanced techniques in object detection and generative AI, GazeGen performs gaze-controlled image adding/deleting, repositioning, and surface material changes of image objects, and converts static images into videos. Central to GazeGen is the DFT Gaze (Distilled and Fine-Tuned Gaze) agent, an ultra-lightweight model with only 281K parameters, performing accurate real-time gaze predictions tailored to individual users' eyes on small edge devices. GazeGen is the first system to combine visual content generation with real-time gaze estimation, made possible exclusively by DFT Gaze. This real-time gaze estimation enables various visual content generation tasks, all controlled by the user's gaze. The input for DFT Gaze is the user's eye images, while the inputs for visual content generation are the user's view and the predicted gaze point from DFT Gaze. To achieve efficient gaze predictions, we derive the small model from a large model (10x larger) via novel knowledge distillation and personal adaptation techniques. We integrate knowledge distillation with a masked autoencoder, developing a compact yet powerful gaze estimation model. This model is further fine-tuned with Adapters, enabling highly accurate and personalized gaze predictions with minimal user input. DFT Gaze ensures low-latency and precise gaze tracking, supporting a wide range of gaze-driven tasks. We validate the performance of DFT Gaze on AEA and OpenEDS2020 benchmarks, demonstrating low angular gaze error and low latency on the edge device (Raspberry Pi 4). Furthermore, we describe applications of GazeGen, illustrating its versatility and effectiveness in various usage scenarios.

GazeGen: Interacción del Usuario Dirigida por la Mirada para la Generación de Contenido Visual

GazeGen: Gaze-Driven User Interaction for Visual Content Generation

Resumen

Support