Расшифровка целей поиска информации открытого типа на основе движений глаз при чтении
Decoding Open-Ended Information Seeking Goals from Eye Movements in Reading
May 4, 2025
Авторы: Cfir Avraham Hadar, Omer Shubi, Yoav Meiri, Yevgeni Berzak
cs.AI
Аннотация
При чтении мы часто ищем в тексте конкретную информацию, которая нас интересует. Например, вы можете читать эту статью, потому что вам любопытны большие языковые модели (LLM) в контексте движений глаз при чтении, экспериментальный дизайн или, возможно, вас волнует только вопрос «но работает ли это?». В более широком смысле, в повседневной жизни люди подходят к текстам с различными целями, которые определяют их поведение при чтении. В данной работе мы впервые задаемся вопросом, можно ли автоматически декодировать открытые цели чтения на основе движений глаз. Чтобы ответить на этот вопрос, мы вводим задачи классификации и реконструкции целей, а также соответствующие оценочные рамки, и используем масштабные данные отслеживания движений глаз при чтении на английском языке с сотнями задач поиска текстовой информации. Мы разрабатываем и сравниваем несколько дискриминативных и генеративных мультимодальных LLM, которые объединяют движения глаз и текст для классификации и реконструкции целей. Наши эксперименты показывают значительный успех в обеих задачах, что свидетельствует о том, что LLM могут извлекать ценную информацию о текстовых целях читателей на основе их движений глаз.
English
When reading, we often have specific information that interests us in a text.
For example, you might be reading this paper because you are curious about LLMs
for eye movements in reading, the experimental design, or perhaps you only care
about the question ``but does it work?''. More broadly, in daily life, people
approach texts with any number of text-specific goals that guide their reading
behavior. In this work, we ask, for the first time, whether open-ended reading
goals can be automatically decoded from eye movements in reading. To address
this question, we introduce goal classification and goal reconstruction tasks
and evaluation frameworks, and use large-scale eye tracking for reading data in
English with hundreds of text-specific information seeking tasks. We develop
and compare several discriminative and generative multimodal LLMs that combine
eye movements and text for goal classification and goal reconstruction. Our
experiments show considerable success on both tasks, suggesting that LLMs can
extract valuable information about the readers' text-specific goals from eye
movements.Summary
AI-Generated Summary