GazeGen : Interaction Utilisateur Pilotée par le Regard pour la Génération de Contenu Visuel
GazeGen: Gaze-Driven User Interaction for Visual Content Generation
November 7, 2024
papers.authors: He-Yen Hsieh, Ziyun Li, Sai Qian Zhang, Wei-Te Mark Ting, Kao-Den Chang, Barbara De Salvo, Chiao Liu, H. T. Kung
cs.AI
papers.abstract
Nous présentons GazeGen, un système d'interaction utilisateur qui génère du contenu visuel (images et vidéos) pour les emplacements indiqués par le regard de l'utilisateur. GazeGen permet une manipulation intuitive du contenu visuel en ciblant les régions d'intérêt avec le regard. En utilisant des techniques avancées de détection d'objets et d'IA générative, GazeGen effectue des ajouts/suppressions d'images, des repositionnements et des changements de matériaux de surface des objets d'image contrôlés par le regard, et convertit des images statiques en vidéos. Au cœur de GazeGen se trouve l'agent DFT Gaze (Distilled and Fine-Tuned Gaze), un modèle ultra-léger avec seulement 281K paramètres, réalisant des prédictions de regard en temps réel précises et adaptées aux yeux de chaque utilisateur sur de petits dispositifs périphériques. GazeGen est le premier système à combiner la génération de contenu visuel avec l'estimation de regard en temps réel, rendu possible exclusivement par DFT Gaze. Cette estimation de regard en temps réel permet diverses tâches de génération de contenu visuel, toutes contrôlées par le regard de l'utilisateur. L'entrée pour DFT Gaze est constituée des images des yeux de l'utilisateur, tandis que les entrées pour la génération de contenu visuel sont la vue de l'utilisateur et le point de regard prédit par DFT Gaze. Pour réaliser des prédictions de regard efficaces, nous dérivons le petit modèle d'un grand modèle (10 fois plus grand) via des techniques novatrices de distillation de connaissances et d'adaptation personnelle. Nous intégrons la distillation de connaissances avec un autoencodeur masqué, développant ainsi un modèle d'estimation de regard compact mais puissant. Ce modèle est ensuite affiné avec des adaptateurs, permettant des prédictions de regard très précises et personnalisées avec un minimum d'entrée utilisateur. DFT Gaze garantit un suivi de regard à faible latence et précis, supportant une large gamme de tâches pilotées par le regard. Nous validons les performances de DFT Gaze sur les benchmarks AEA et OpenEDS2020, démontrant une faible erreur angulaire de regard et une faible latence sur le dispositif périphérique (Raspberry Pi 4). De plus, nous décrivons les applications de GazeGen, illustrant sa polyvalence et son efficacité dans divers scénarios d'utilisation.
English
We present GazeGen, a user interaction system that generates visual content
(images and videos) for locations indicated by the user's eye gaze. GazeGen
allows intuitive manipulation of visual content by targeting regions of
interest with gaze. Using advanced techniques in object detection and
generative AI, GazeGen performs gaze-controlled image adding/deleting,
repositioning, and surface material changes of image objects, and converts
static images into videos. Central to GazeGen is the DFT Gaze (Distilled and
Fine-Tuned Gaze) agent, an ultra-lightweight model with only 281K parameters,
performing accurate real-time gaze predictions tailored to individual users'
eyes on small edge devices. GazeGen is the first system to combine visual
content generation with real-time gaze estimation, made possible exclusively by
DFT Gaze. This real-time gaze estimation enables various visual content
generation tasks, all controlled by the user's gaze. The input for DFT Gaze is
the user's eye images, while the inputs for visual content generation are the
user's view and the predicted gaze point from DFT Gaze. To achieve efficient
gaze predictions, we derive the small model from a large model (10x larger) via
novel knowledge distillation and personal adaptation techniques. We integrate
knowledge distillation with a masked autoencoder, developing a compact yet
powerful gaze estimation model. This model is further fine-tuned with Adapters,
enabling highly accurate and personalized gaze predictions with minimal user
input. DFT Gaze ensures low-latency and precise gaze tracking, supporting a
wide range of gaze-driven tasks. We validate the performance of DFT Gaze on AEA
and OpenEDS2020 benchmarks, demonstrating low angular gaze error and low
latency on the edge device (Raspberry Pi 4). Furthermore, we describe
applications of GazeGen, illustrating its versatility and effectiveness in
various usage scenarios.