ChatPaper.aiChatPaper

Gaze-LLE: Оценка цели взгляда с помощью крупномасштабных обученных кодировщиков

Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders

December 12, 2024
Авторы: Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, James M. Rehg
cs.AI

Аннотация

Мы рассматриваем проблему оценки точки взгляда, которая направлена на предсказание того, куда человек смотрит в сцене. Для предсказания точки взгляда человека необходимо рассуждать как о внешности человека, так и о содержании сцены. Предыдущие работы разработали все более сложные, созданные вручную конвейеры для оценки точки взгляда, тщательно объединяя признаки из отдельных кодировщиков сцены, кодировщиков головы и вспомогательных моделей для сигналов, таких как глубина и поза. Вдохновленные успехом универсальных извлекателей признаков на различных визуальных задачах, мы предлагаем Gaze-LLE, новую трансформерную структуру, которая упрощает оценку точки взгляда, используя признаки из замороженного кодировщика DINOv2. Мы извлекаем единственное представление признаков для сцены и применяем персональный позиционный запрос для расшифровки взгляда с помощью легкого модуля. Мы продемонстрировали передовые результаты на нескольких бенчмарках точки взгляда и предоставили обширный анализ для подтверждения наших дизайнерских решений. Наш код доступен по адресу: http://github.com/fkryan/gazelle .
English
We address the problem of gaze target estimation, which aims to predict where a person is looking in a scene. Predicting a person's gaze target requires reasoning both about the person's appearance and the contents of the scene. Prior works have developed increasingly complex, hand-crafted pipelines for gaze target estimation that carefully fuse features from separate scene encoders, head encoders, and auxiliary models for signals like depth and pose. Motivated by the success of general-purpose feature extractors on a variety of visual tasks, we propose Gaze-LLE, a novel transformer framework that streamlines gaze target estimation by leveraging features from a frozen DINOv2 encoder. We extract a single feature representation for the scene, and apply a person-specific positional prompt to decode gaze with a lightweight module. We demonstrate state-of-the-art performance across several gaze benchmarks and provide extensive analysis to validate our design choices. Our code is available at: http://github.com/fkryan/gazelle .

Summary

AI-Generated Summary

PDF52December 13, 2024