Decodifica degli obiettivi di ricerca di informazioni aperte dai movimenti oculari durante la lettura
Decoding Open-Ended Information Seeking Goals from Eye Movements in Reading
May 4, 2025
Autori: Cfir Avraham Hadar, Omer Shubi, Yoav Meiri, Yevgeni Berzak
cs.AI
Abstract
Durante la lettura, spesso abbiamo informazioni specifiche che ci interessano in un testo.
Ad esempio, potreste leggere questo articolo perché siete curiosi riguardo ai LLM per i movimenti oculari nella lettura, al design sperimentale, o forse vi interessa solo la domanda "ma funziona?". Più in generale, nella vita quotidiana, le persone affrontano i testi con una varietà di obiettivi specifici che guidano il loro comportamento di lettura. In questo lavoro, ci chiediamo, per la prima volta, se gli obiettivi di lettura aperti possano essere decodificati automaticamente dai movimenti oculari durante la lettura. Per affrontare questa domanda, introduciamo compiti di classificazione degli obiettivi e ricostruzione degli obiettivi, insieme a framework di valutazione, e utilizziamo dati su larga scala di eye tracking per la lettura in inglese con centinaia di compiti specifici di ricerca di informazioni. Sviluppiamo e confrontiamo diversi LLM multimodali discriminativi e generativi che combinano movimenti oculari e testo per la classificazione degli obiettivi e la ricostruzione degli obiettivi. I nostri esperimenti mostrano un notevole successo in entrambi i compiti, suggerendo che i LLM possono estrarre informazioni preziose sugli obiettivi specifici dei lettori dai movimenti oculari.
English
When reading, we often have specific information that interests us in a text.
For example, you might be reading this paper because you are curious about LLMs
for eye movements in reading, the experimental design, or perhaps you only care
about the question ``but does it work?''. More broadly, in daily life, people
approach texts with any number of text-specific goals that guide their reading
behavior. In this work, we ask, for the first time, whether open-ended reading
goals can be automatically decoded from eye movements in reading. To address
this question, we introduce goal classification and goal reconstruction tasks
and evaluation frameworks, and use large-scale eye tracking for reading data in
English with hundreds of text-specific information seeking tasks. We develop
and compare several discriminative and generative multimodal LLMs that combine
eye movements and text for goal classification and goal reconstruction. Our
experiments show considerable success on both tasks, suggesting that LLMs can
extract valuable information about the readers' text-specific goals from eye
movements.