Algemene Gebruikersmodellen Creëren op Basis van Computergebruik
Creating General User Models from Computer Use
May 16, 2025
Auteurs: Omar Shaikh, Shardul Sapkota, Shan Rizvi, Eric Horvitz, Joon Sung Park, Diyi Yang, Michael S. Bernstein
cs.AI
Samenvatting
Mens-computerinteractie heeft lang technologieën voor ogen gehad die ons begrijpen - van onze voorkeuren en gewoonten tot de timing en het doel van onze dagelijkse handelingen. Toch blijven huidige gebruikersmodellen gefragmenteerd, nauw toegesneden op specifieke apps, en niet in staat tot het flexibele redeneren dat nodig is om deze visies te verwezenlijken. Dit artikel presenteert een architectuur voor een algemeen gebruikersmodel (GUM) dat over je leert door elke interactie die je met je computer hebt te observeren. Het GUM neemt als invoer elke ongestructureerde observatie van een gebruiker (bijv., schermafbeeldingen van apparaten) en construeert vertrouwensgewogen proposities die die gebruikerskennis en voorkeuren vastleggen. GUMs kunnen afleiden dat een gebruiker zich voorbereidt op een bruiloft waar ze naartoe gaan, op basis van berichten met een vriend. Of herkennen dat een gebruiker moeite heeft met feedback van een medewerker op een concept door meerdere gestagneerde bewerkingen en een overstap naar het lezen van gerelateerd werk te observeren. GUMs introduceren een architectuur die nieuwe proposities over een gebruiker afleidt uit multimodale observaties, gerelateerde proposities ophaalt voor context, en bestaande proposities continu herziet. Om de breedte van toepassingen die GUMs mogelijk maken te illustreren, demonstreren we hoe ze chatgebaseerde assistenten verrijken met context, OS-meldingen beheren om selectief belangrijke informatie naar voren te halen, en interactieve agents mogelijk maken die zich aanpassen aan voorkeuren over apps heen. We concretiseren ook proactieve assistenten (GUMBOs) die nuttige suggesties ontdekken en uitvoeren namens een gebruiker met behulp van hun GUM. In onze evaluaties vinden we dat GUMs gekalibreerde en accurate inferenties over gebruikers maken, en dat assistenten gebouwd op GUMs proactief acties identificeren en uitvoeren die gebruikers niet expliciet zouden aanvragen. Al met al introduceren GUMs methoden die multimodale modellen benutten om ongestructureerde context te begrijpen, waardoor lang gekoesterde visies van HCI en geheel nieuwe interactieve systemen die gebruikersbehoeften anticiperen mogelijk worden.
English
Human-computer interaction has long imagined technology that understands
us-from our preferences and habits, to the timing and purpose of our everyday
actions. Yet current user models remain fragmented, narrowly tailored to
specific apps, and incapable of the flexible reasoning required to fulfill
these visions. This paper presents an architecture for a general user model
(GUM) that learns about you by observing any interaction you have with your
computer. The GUM takes as input any unstructured observation of a user (e.g.,
device screenshots) and constructs confidence-weighted propositions that
capture that user knowledge and preferences. GUMs can infer that a user is
preparing for a wedding they're attending from messages with a friend. Or
recognize that a user is struggling with a collaborator's feedback on a draft
by observing multiple stalled edits and a switch to reading related work. GUMs
introduce an architecture that infers new propositions about a user from
multimodal observations, retrieves related propositions for context, and
continuously revises existing propositions. To illustrate the breadth of
applications that GUMs enable, we demonstrate how they augment chat-based
assistants with context, manage OS notifications to selectively surface
important information, and enable interactive agents that adapt to preferences
across apps. We also instantiate proactive assistants (GUMBOs) that discover
and execute useful suggestions on a user's behalf using their GUM. In our
evaluations, we find that GUMs make calibrated and accurate inferences about
users, and that assistants built on GUMs proactively identify and perform
actions that users wouldn't think to request explicitly. Altogether, GUMs
introduce methods that leverage multimodal models to understand unstructured
context, enabling long-standing visions of HCI and entirely new interactive
systems that anticipate user needs.Summary
AI-Generated Summary