Gaze-LLE: Estimación del Objetivo de la Mirada a través de Codificadores Aprendidos a Gran Escala
Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders
December 12, 2024
Autores: Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, James M. Rehg
cs.AI
Resumen
Abordamos el problema de la estimación del objetivo de la mirada, que tiene como objetivo predecir hacia dónde está mirando una persona en una escena. Predecir el objetivo de la mirada de una persona requiere razonar tanto sobre la apariencia de la persona como sobre el contenido de la escena. Trabajos previos han desarrollado tuberías cada vez más complejas y elaboradas para la estimación del objetivo de la mirada que fusionan cuidadosamente características de codificadores de escena separados, codificadores de cabeza y modelos auxiliares para señales como la profundidad y la pose. Motivados por el éxito de los extractores de características de propósito general en una variedad de tareas visuales, proponemos Gaze-LLE, un nuevo marco de transformadores que simplifica la estimación del objetivo de la mirada aprovechando características de un codificador DINOv2 congelado. Extraemos una única representación de características para la escena y aplicamos una indicación posicional específica de la persona para decodificar la mirada con un módulo ligero. Demostramos un rendimiento de vanguardia en varios benchmarks de mirada y proporcionamos un análisis exhaustivo para validar nuestras decisiones de diseño. Nuestro código está disponible en: http://github.com/fkryan/gazelle.
English
We address the problem of gaze target estimation, which aims to predict where
a person is looking in a scene. Predicting a person's gaze target requires
reasoning both about the person's appearance and the contents of the scene.
Prior works have developed increasingly complex, hand-crafted pipelines for
gaze target estimation that carefully fuse features from separate scene
encoders, head encoders, and auxiliary models for signals like depth and pose.
Motivated by the success of general-purpose feature extractors on a variety of
visual tasks, we propose Gaze-LLE, a novel transformer framework that
streamlines gaze target estimation by leveraging features from a frozen DINOv2
encoder. We extract a single feature representation for the scene, and apply a
person-specific positional prompt to decode gaze with a lightweight module. We
demonstrate state-of-the-art performance across several gaze benchmarks and
provide extensive analysis to validate our design choices. Our code is
available at: http://github.com/fkryan/gazelle .Summary
AI-Generated Summary