Decodificação de Objetivos de Busca de Informação Aberta a partir de Movimentos Oculares na Leitura
Decoding Open-Ended Information Seeking Goals from Eye Movements in Reading
May 4, 2025
Autores: Cfir Avraham Hadar, Omer Shubi, Yoav Meiri, Yevgeni Berzak
cs.AI
Resumo
Ao ler, frequentemente buscamos informações específicas em um texto que nos interessam.
Por exemplo, você pode estar lendo este artigo porque está curioso sobre LLMs
para movimentos oculares na leitura, o design experimental, ou talvez você só se importe
com a pergunta "mas isso funciona?". De forma mais ampla, no dia a dia, as pessoas
abordam textos com uma variedade de objetivos específicos que orientam seu comportamento
de leitura. Neste trabalho, perguntamos, pela primeira vez, se objetivos de leitura
abertos podem ser decodificados automaticamente a partir dos movimentos oculares durante
a leitura. Para abordar essa questão, introduzimos tarefas de classificação e reconstrução
de objetivos, juntamente com frameworks de avaliação, e utilizamos dados de rastreamento
ocular em larga escala para leitura em inglês, com centenas de tarefas de busca de
informações específicas do texto. Desenvolvemos e comparamos vários LLMs multimodais
discriminativos e generativos que combinam movimentos oculares e texto para classificação
e reconstrução de objetivos. Nossos experimentos mostram um sucesso considerável em
ambas as tarefas, sugerindo que LLMs podem extrair informações valiosas sobre os objetivos
específicos dos leitores a partir dos movimentos oculares.
English
When reading, we often have specific information that interests us in a text.
For example, you might be reading this paper because you are curious about LLMs
for eye movements in reading, the experimental design, or perhaps you only care
about the question ``but does it work?''. More broadly, in daily life, people
approach texts with any number of text-specific goals that guide their reading
behavior. In this work, we ask, for the first time, whether open-ended reading
goals can be automatically decoded from eye movements in reading. To address
this question, we introduce goal classification and goal reconstruction tasks
and evaluation frameworks, and use large-scale eye tracking for reading data in
English with hundreds of text-specific information seeking tasks. We develop
and compare several discriminative and generative multimodal LLMs that combine
eye movements and text for goal classification and goal reconstruction. Our
experiments show considerable success on both tasks, suggesting that LLMs can
extract valuable information about the readers' text-specific goals from eye
movements.