ChatPaper.aiChatPaper

Gaze-LLE: Schatting van Kijkdoel via Grote-Schaal Aangeleerde Encoders

Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders

December 12, 2024
Auteurs: Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, James M. Rehg
cs.AI

Samenvatting

We richten ons op het probleem van het schatten van het kijkdoel, dat tot doel heeft te voorspellen waar een persoon naar kijkt in een scène. Het voorspellen van het kijkdoel van een persoon vereist redeneren over zowel het uiterlijk van de persoon als de inhoud van de scène. Eerdere werken hebben steeds complexere, handmatig samengestelde pipelines ontwikkeld voor het schatten van het kijkdoel, waarbij zorgvuldig kenmerken worden samengevoegd van afzonderlijke scène-encoders, hoofd-encoders en hulpmodellen voor signalen zoals diepte en houding. Geïnspireerd door het succes van algemene kenmerkextractors voor een verscheidenheid aan visuele taken, stellen we Gaze-LLE voor, een nieuw transformer-framework dat het schatten van het kijkdoel stroomlijnt door gebruik te maken van kenmerken van een bevroren DINOv2-encoder. We extraheren een enkele kenmerkrepresentatie voor de scène en passen een persoonspecifieke positionele prompt toe om het kijkdoel te decoderen met een lichtgewicht module. We tonen toonaangevende prestaties op verschillende kijkdoel-benchmarks en bieden uitgebreide analyses om onze ontwerpkeuzes te valideren. Onze code is beschikbaar op: http://github.com/fkryan/gazelle.
English
We address the problem of gaze target estimation, which aims to predict where a person is looking in a scene. Predicting a person's gaze target requires reasoning both about the person's appearance and the contents of the scene. Prior works have developed increasingly complex, hand-crafted pipelines for gaze target estimation that carefully fuse features from separate scene encoders, head encoders, and auxiliary models for signals like depth and pose. Motivated by the success of general-purpose feature extractors on a variety of visual tasks, we propose Gaze-LLE, a novel transformer framework that streamlines gaze target estimation by leveraging features from a frozen DINOv2 encoder. We extract a single feature representation for the scene, and apply a person-specific positional prompt to decode gaze with a lightweight module. We demonstrate state-of-the-art performance across several gaze benchmarks and provide extensive analysis to validate our design choices. Our code is available at: http://github.com/fkryan/gazelle .
PDF52December 13, 2024