ChatPaper.aiChatPaper

Blick-LLE: Blickzielabschätzung mittels großangelegter gelernter Encoder

Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders

December 12, 2024
Autoren: Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, James M. Rehg
cs.AI

Zusammenfassung

Wir behandeln das Problem der Schätzung des Blickziels, das darauf abzielt, vorherzusagen, wohin eine Person in einer Szene schaut. Die Vorhersage des Blickziels einer Person erfordert Überlegungen sowohl zum Erscheinungsbild der Person als auch zum Inhalt der Szene. Frühere Arbeiten haben zunehmend komplexe, handgefertigte Pipelines für die Schätzung des Blickziels entwickelt, die sorgfältig Merkmale aus separaten Szenencodierern, Kopfcodierern und Hilfsmodellen für Signale wie Tiefe und Pose fusionieren. Angespornt vom Erfolg allgemeiner Merkmalsextraktoren bei einer Vielzahl von visuellen Aufgaben schlagen wir Gaze-LLE vor, ein neuartiges Transformer-Framework, das die Schätzung des Blickziels optimiert, indem es Merkmale aus einem eingefrorenen DINOv2-Encoder nutzt. Wir extrahieren eine einzige Merkmalsdarstellung für die Szene und wenden einen personenspezifischen Positions-Prompt an, um den Blick mit einem leichtgewichtigen Modul zu entschlüsseln. Wir demonstrieren Spitzenleistungen in mehreren Blick-Benchmarks und liefern umfangreiche Analysen zur Validierung unserer Designentscheidungen. Unser Code ist verfügbar unter: http://github.com/fkryan/gazelle.
English
We address the problem of gaze target estimation, which aims to predict where a person is looking in a scene. Predicting a person's gaze target requires reasoning both about the person's appearance and the contents of the scene. Prior works have developed increasingly complex, hand-crafted pipelines for gaze target estimation that carefully fuse features from separate scene encoders, head encoders, and auxiliary models for signals like depth and pose. Motivated by the success of general-purpose feature extractors on a variety of visual tasks, we propose Gaze-LLE, a novel transformer framework that streamlines gaze target estimation by leveraging features from a frozen DINOv2 encoder. We extract a single feature representation for the scene, and apply a person-specific positional prompt to decode gaze with a lightweight module. We demonstrate state-of-the-art performance across several gaze benchmarks and provide extensive analysis to validate our design choices. Our code is available at: http://github.com/fkryan/gazelle .

Summary

AI-Generated Summary

PDF52December 13, 2024