Erstellung allgemeiner Benutzermodelle aus der Computernutzung
Creating General User Models from Computer Use
May 16, 2025
papers.authors: Omar Shaikh, Shardul Sapkota, Shan Rizvi, Eric Horvitz, Joon Sung Park, Diyi Yang, Michael S. Bernstein
cs.AI
papers.abstract
Die Mensch-Computer-Interaktion hat sich schon lange Technologien vorgestellt, die uns verstehen – von unseren Vorlieben und Gewohnheiten bis hin zum Timing und Zweck unserer alltäglichen Handlungen. Dennoch bleiben aktuelle Benutzermodelle fragmentiert, eng auf spezifische Anwendungen zugeschnitten und unfähig zu dem flexiblen Denken, das erforderlich ist, um diese Visionen zu verwirklichen. Dieses Papier stellt eine Architektur für ein allgemeines Benutzermodell (General User Model, GUM) vor, das durch die Beobachtung jeglicher Interaktion, die Sie mit Ihrem Computer haben, über Sie lernt. Das GUM nimmt als Eingabe jede unstrukturierte Beobachtung eines Benutzers (z. B. Bildschirmfotos von Geräten) und konstruiert gewichtete Aussagen, die das Wissen und die Präferenzen dieses Benutzers erfassen. GUMs können beispielsweise ableiten, dass ein Benutzer sich auf eine Hochzeit vorbereitet, die er besucht, basierend auf Nachrichten mit einem Freund. Oder sie erkennen, dass ein Benutzer mit dem Feedback eines Mitarbeiters zu einem Entwurf kämpft, indem sie mehrere stockende Bearbeitungen und einen Wechsel zum Lesen verwandter Arbeiten beobachten. GUMs führen eine Architektur ein, die neue Aussagen über einen Benutzer aus multimodalen Beobachtungen ableitet, verwandte Aussagen für den Kontext abruft und bestehende Aussagen kontinuierlich überarbeitet. Um die Breite der Anwendungen zu veranschaulichen, die GUMs ermöglichen, zeigen wir, wie sie Chat-basierte Assistenten mit Kontext erweitern, Betriebssystembenachrichtigungen verwalten, um wichtige Informationen gezielt anzuzeigen, und interaktive Agenten ermöglichen, die sich an Präferenzen über Apps hinweg anpassen. Wir implementieren auch proaktive Assistenten (GUMBOs), die nützliche Vorschläge im Namen eines Benutzers entdecken und ausführen, indem sie dessen GUM nutzen. In unseren Auswertungen stellen wir fest, dass GUMs kalibrierte und präzise Schlussfolgerungen über Benutzer ziehen und dass Assistenten, die auf GUMs basieren, proaktiv Aktionen identifizieren und ausführen, die Benutzer nicht explizit anfordern würden. Insgesamt führen GUMs Methoden ein, die multimodale Modelle nutzen, um unstrukturierten Kontext zu verstehen, und ermöglichen damit langjährige Visionen der Mensch-Computer-Interaktion sowie völlig neue interaktive Systeme, die Benutzerbedürfnisse vorwegnehmen.
English
Human-computer interaction has long imagined technology that understands
us-from our preferences and habits, to the timing and purpose of our everyday
actions. Yet current user models remain fragmented, narrowly tailored to
specific apps, and incapable of the flexible reasoning required to fulfill
these visions. This paper presents an architecture for a general user model
(GUM) that learns about you by observing any interaction you have with your
computer. The GUM takes as input any unstructured observation of a user (e.g.,
device screenshots) and constructs confidence-weighted propositions that
capture that user knowledge and preferences. GUMs can infer that a user is
preparing for a wedding they're attending from messages with a friend. Or
recognize that a user is struggling with a collaborator's feedback on a draft
by observing multiple stalled edits and a switch to reading related work. GUMs
introduce an architecture that infers new propositions about a user from
multimodal observations, retrieves related propositions for context, and
continuously revises existing propositions. To illustrate the breadth of
applications that GUMs enable, we demonstrate how they augment chat-based
assistants with context, manage OS notifications to selectively surface
important information, and enable interactive agents that adapt to preferences
across apps. We also instantiate proactive assistants (GUMBOs) that discover
and execute useful suggestions on a user's behalf using their GUM. In our
evaluations, we find that GUMs make calibrated and accurate inferences about
users, and that assistants built on GUMs proactively identify and perform
actions that users wouldn't think to request explicitly. Altogether, GUMs
introduce methods that leverage multimodal models to understand unstructured
context, enabling long-standing visions of HCI and entirely new interactive
systems that anticipate user needs.