Het decoderen van open-einde informatiezoekdoelen uit oogbewegingen tijdens het lezen
Decoding Open-Ended Information Seeking Goals from Eye Movements in Reading
May 4, 2025
Auteurs: Cfir Avraham Hadar, Omer Shubi, Yoav Meiri, Yevgeni Berzak
cs.AI
Samenvatting
Bij het lezen hebben we vaak specifieke informatie in een tekst die ons interesseert.
Bijvoorbeeld, je leest dit artikel misschien omdat je nieuwsgierig bent naar LLM's
voor oogbewegingen tijdens het lezen, het experimentele ontwerp, of misschien gaat
het je alleen om de vraag "maar werkt het ook?". Meer in het algemeen benaderen
mensen in het dagelijks leven teksten met allerlei tekstspecifieke doelen die hun
leesgedrag sturen. In dit werk stellen we, voor het eerst, de vraag of open-ended
leesdoelen automatisch kunnen worden gedecodeerd uit oogbewegingen tijdens het lezen.
Om deze vraag te beantwoorden, introduceren we doelclassificatie- en doelreconstructietaken
en evaluatiekaders, en gebruiken we grootschalige eye-trackingdata voor het lezen van
Engelse teksten met honderden tekstspecifieke informatiezoektaken. We ontwikkelen en
vergelijken verschillende discriminatieve en generatieve multimodale LLM's die oogbewegingen
en tekst combineren voor doelclassificatie en doelreconstructie. Onze experimenten tonen
aanzienlijk succes aan bij beide taken, wat suggereert dat LLM's waardevolle informatie
over de tekstspecifieke doelen van lezers kunnen extraheren uit oogbewegingen.
English
When reading, we often have specific information that interests us in a text.
For example, you might be reading this paper because you are curious about LLMs
for eye movements in reading, the experimental design, or perhaps you only care
about the question ``but does it work?''. More broadly, in daily life, people
approach texts with any number of text-specific goals that guide their reading
behavior. In this work, we ask, for the first time, whether open-ended reading
goals can be automatically decoded from eye movements in reading. To address
this question, we introduce goal classification and goal reconstruction tasks
and evaluation frameworks, and use large-scale eye tracking for reading data in
English with hundreds of text-specific information seeking tasks. We develop
and compare several discriminative and generative multimodal LLMs that combine
eye movements and text for goal classification and goal reconstruction. Our
experiments show considerable success on both tasks, suggesting that LLMs can
extract valuable information about the readers' text-specific goals from eye
movements.