GazeGen : Interaction Utilisateur Pilotée par le Regard pour la Génération de Contenu Visuel

papers.abstract

Nous présentons GazeGen, un système d'interaction utilisateur qui génère du contenu visuel (images et vidéos) pour les emplacements indiqués par le regard de l'utilisateur. GazeGen permet une manipulation intuitive du contenu visuel en ciblant les régions d'intérêt avec le regard. En utilisant des techniques avancées de détection d'objets et d'IA générative, GazeGen effectue des ajouts/suppressions d'images, des repositionnements et des changements de matériaux de surface des objets d'image contrôlés par le regard, et convertit des images statiques en vidéos. Au cœur de GazeGen se trouve l'agent DFT Gaze (Distilled and Fine-Tuned Gaze), un modèle ultra-léger avec seulement 281K paramètres, réalisant des prédictions de regard en temps réel précises et adaptées aux yeux de chaque utilisateur sur de petits dispositifs périphériques. GazeGen est le premier système à combiner la génération de contenu visuel avec l'estimation de regard en temps réel, rendu possible exclusivement par DFT Gaze. Cette estimation de regard en temps réel permet diverses tâches de génération de contenu visuel, toutes contrôlées par le regard de l'utilisateur. L'entrée pour DFT Gaze est constituée des images des yeux de l'utilisateur, tandis que les entrées pour la génération de contenu visuel sont la vue de l'utilisateur et le point de regard prédit par DFT Gaze. Pour réaliser des prédictions de regard efficaces, nous dérivons le petit modèle d'un grand modèle (10 fois plus grand) via des techniques novatrices de distillation de connaissances et d'adaptation personnelle. Nous intégrons la distillation de connaissances avec un autoencodeur masqué, développant ainsi un modèle d'estimation de regard compact mais puissant. Ce modèle est ensuite affiné avec des adaptateurs, permettant des prédictions de regard très précises et personnalisées avec un minimum d'entrée utilisateur. DFT Gaze garantit un suivi de regard à faible latence et précis, supportant une large gamme de tâches pilotées par le regard. Nous validons les performances de DFT Gaze sur les benchmarks AEA et OpenEDS2020, démontrant une faible erreur angulaire de regard et une faible latence sur le dispositif périphérique (Raspberry Pi 4). De plus, nous décrivons les applications de GazeGen, illustrant sa polyvalence et son efficacité dans divers scénarios d'utilisation.

English

We present GazeGen, a user interaction system that generates visual content (images and videos) for locations indicated by the user's eye gaze. GazeGen allows intuitive manipulation of visual content by targeting regions of interest with gaze. Using advanced techniques in object detection and generative AI, GazeGen performs gaze-controlled image adding/deleting, repositioning, and surface material changes of image objects, and converts static images into videos. Central to GazeGen is the DFT Gaze (Distilled and Fine-Tuned Gaze) agent, an ultra-lightweight model with only 281K parameters, performing accurate real-time gaze predictions tailored to individual users' eyes on small edge devices. GazeGen is the first system to combine visual content generation with real-time gaze estimation, made possible exclusively by DFT Gaze. This real-time gaze estimation enables various visual content generation tasks, all controlled by the user's gaze. The input for DFT Gaze is the user's eye images, while the inputs for visual content generation are the user's view and the predicted gaze point from DFT Gaze. To achieve efficient gaze predictions, we derive the small model from a large model (10x larger) via novel knowledge distillation and personal adaptation techniques. We integrate knowledge distillation with a masked autoencoder, developing a compact yet powerful gaze estimation model. This model is further fine-tuned with Adapters, enabling highly accurate and personalized gaze predictions with minimal user input. DFT Gaze ensures low-latency and precise gaze tracking, supporting a wide range of gaze-driven tasks. We validate the performance of DFT Gaze on AEA and OpenEDS2020 benchmarks, demonstrating low angular gaze error and low latency on the edge device (Raspberry Pi 4). Furthermore, we describe applications of GazeGen, illustrating its versatility and effectiveness in various usage scenarios.

GazeGen : Interaction Utilisateur Pilotée par le Regard pour la Génération de Contenu Visuel

GazeGen: Gaze-Driven User Interaction for Visual Content Generation

papers.abstract

Support