Создание общих моделей пользователей на основе использования компьютера
Creating General User Models from Computer Use
May 16, 2025
Авторы: Omar Shaikh, Shardul Sapkota, Shan Rizvi, Eric Horvitz, Joon Sung Park, Diyi Yang, Michael S. Bernstein
cs.AI
Аннотация
Человеко-компьютерное взаимодействие давно мечтает о технологиях, которые понимают нас — от наших предпочтений и привычек до времени и целей наших повседневных действий. Однако современные модели пользователей остаются фрагментированными, узконаправленными для конкретных приложений и неспособными к гибкому рассуждению, необходимому для реализации этих идей. В данной статье представлена архитектура общей модели пользователя (GUM), которая изучает вас, наблюдая за любым взаимодействием с компьютером. GUM принимает на вход любые неструктурированные наблюдения за пользователем (например, скриншоты устройств) и формирует уверенно взвешенные утверждения, которые отражают знания и предпочтения пользователя. GUM может сделать вывод, что пользователь готовится к свадьбе, на которую он собирается, на основе сообщений с другом. Или распознать, что пользователь испытывает трудности с обратной связью от коллеги по черновику, наблюдая за множеством застопорившихся правок и переходом к чтению связанных материалов. GUM представляет архитектуру, которая выводит новые утверждения о пользователе на основе мультимодальных наблюдений, извлекает связанные утверждения для контекста и постоянно пересматривает существующие утверждения. Чтобы продемонстрировать широту приложений, которые GUM делает возможными, мы показываем, как они обогащают чат-ассистентов контекстом, управляют уведомлениями операционной системы для выборочного отображения важной информации и позволяют интерактивным агентам адаптироваться к предпочтениям в различных приложениях. Мы также реализуем проактивных ассистентов (GUMBO), которые обнаруживают и выполняют полезные предложения от имени пользователя, используя их GUM. В наших оценках мы обнаружили, что GUM делают калиброванные и точные выводы о пользователях, а ассистенты, построенные на основе GUM, проактивно идентифицируют и выполняют действия, которые пользователи не подумали бы запросить явно. В целом, GUM представляют методы, которые используют мультимодальные модели для понимания неструктурированного контекста, воплощая давние идеи человеко-компьютерного взаимодействия и создавая совершенно новые интерактивные системы, предвосхищающие потребности пользователей.
English
Human-computer interaction has long imagined technology that understands
us-from our preferences and habits, to the timing and purpose of our everyday
actions. Yet current user models remain fragmented, narrowly tailored to
specific apps, and incapable of the flexible reasoning required to fulfill
these visions. This paper presents an architecture for a general user model
(GUM) that learns about you by observing any interaction you have with your
computer. The GUM takes as input any unstructured observation of a user (e.g.,
device screenshots) and constructs confidence-weighted propositions that
capture that user knowledge and preferences. GUMs can infer that a user is
preparing for a wedding they're attending from messages with a friend. Or
recognize that a user is struggling with a collaborator's feedback on a draft
by observing multiple stalled edits and a switch to reading related work. GUMs
introduce an architecture that infers new propositions about a user from
multimodal observations, retrieves related propositions for context, and
continuously revises existing propositions. To illustrate the breadth of
applications that GUMs enable, we demonstrate how they augment chat-based
assistants with context, manage OS notifications to selectively surface
important information, and enable interactive agents that adapt to preferences
across apps. We also instantiate proactive assistants (GUMBOs) that discover
and execute useful suggestions on a user's behalf using their GUM. In our
evaluations, we find that GUMs make calibrated and accurate inferences about
users, and that assistants built on GUMs proactively identify and perform
actions that users wouldn't think to request explicitly. Altogether, GUMs
introduce methods that leverage multimodal models to understand unstructured
context, enabling long-standing visions of HCI and entirely new interactive
systems that anticipate user needs.Summary
AI-Generated Summary