Gaze-LLE: Estimação do Alvo do Olhar por Meio de Codificadores Aprendidos em Grande Escala
Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders
December 12, 2024
Autores: Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, James M. Rehg
cs.AI
Resumo
Abordamos o problema da estimativa do alvo do olhar, que visa prever para onde uma pessoa está olhando em uma cena. Prever o alvo do olhar de uma pessoa requer raciocinar tanto sobre a aparência da pessoa quanto sobre o conteúdo da cena. Trabalhos anteriores desenvolveram pipelines cada vez mais complexos e feitos à mão para a estimativa do alvo do olhar, que fundem cuidadosamente características de codificadores de cena separados, codificadores de cabeça e modelos auxiliares para sinais como profundidade e pose. Motivados pelo sucesso de extratores de características de uso geral em uma variedade de tarefas visuais, propomos o Gaze-LLE, um novo framework de transformer que simplifica a estimativa do alvo do olhar aproveitando características de um codificador DINOv2 congelado. Extraímos uma única representação de características para a cena e aplicamos um prompt posicional específico da pessoa para decodificar o olhar com um módulo leve. Demonstramos um desempenho de ponta em vários benchmarks de olhar e fornecemos uma análise extensiva para validar nossas escolhas de design. Nosso código está disponível em: http://github.com/fkryan/gazelle.
English
We address the problem of gaze target estimation, which aims to predict where
a person is looking in a scene. Predicting a person's gaze target requires
reasoning both about the person's appearance and the contents of the scene.
Prior works have developed increasingly complex, hand-crafted pipelines for
gaze target estimation that carefully fuse features from separate scene
encoders, head encoders, and auxiliary models for signals like depth and pose.
Motivated by the success of general-purpose feature extractors on a variety of
visual tasks, we propose Gaze-LLE, a novel transformer framework that
streamlines gaze target estimation by leveraging features from a frozen DINOv2
encoder. We extract a single feature representation for the scene, and apply a
person-specific positional prompt to decode gaze with a lightweight module. We
demonstrate state-of-the-art performance across several gaze benchmarks and
provide extensive analysis to validate our design choices. Our code is
available at: http://github.com/fkryan/gazelle .Summary
AI-Generated Summary