Gaze-LLE : Estimation de la cible du regard via des encodeurs appris à grande échelle
Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders
December 12, 2024
Auteurs: Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, James M. Rehg
cs.AI
Résumé
Nous abordons le problème de l'estimation de la cible du regard, qui vise à prédire où une personne regarde dans une scène. Prédire la cible du regard d'une personne nécessite de raisonner à la fois sur l'apparence de la personne et le contenu de la scène. Les travaux antérieurs ont développé des pipelines de plus en plus complexes et conçus manuellement pour l'estimation de la cible du regard, fusionnant soigneusement des caractéristiques provenant d'encodeurs de scène distincts, d'encodeurs de tête et de modèles auxiliaires pour des signaux tels que la profondeur et la pose. Motivés par le succès des extracteurs de caractéristiques polyvalents sur diverses tâches visuelles, nous proposons Gaze-LLE, un nouveau cadre de transformateur qui rationalise l'estimation de la cible du regard en exploitant les caractéristiques d'un encodeur DINOv2 figé. Nous extrayons une seule représentation de caractéristiques pour la scène et appliquons un indicateur de position spécifique à la personne pour décoder le regard avec un module léger. Nous démontrons des performances de pointe sur plusieurs référentiels de regard et fournissons une analyse approfondie pour valider nos choix de conception. Notre code est disponible sur : http://github.com/fkryan/gazelle.
English
We address the problem of gaze target estimation, which aims to predict where
a person is looking in a scene. Predicting a person's gaze target requires
reasoning both about the person's appearance and the contents of the scene.
Prior works have developed increasingly complex, hand-crafted pipelines for
gaze target estimation that carefully fuse features from separate scene
encoders, head encoders, and auxiliary models for signals like depth and pose.
Motivated by the success of general-purpose feature extractors on a variety of
visual tasks, we propose Gaze-LLE, a novel transformer framework that
streamlines gaze target estimation by leveraging features from a frozen DINOv2
encoder. We extract a single feature representation for the scene, and apply a
person-specific positional prompt to decode gaze with a lightweight module. We
demonstrate state-of-the-art performance across several gaze benchmarks and
provide extensive analysis to validate our design choices. Our code is
available at: http://github.com/fkryan/gazelle .Summary
AI-Generated Summary