ChatPaper.aiChatPaper

Erstellung allgemeiner Benutzermodelle aus der Computernutzung

Creating General User Models from Computer Use

May 16, 2025
papers.authors: Omar Shaikh, Shardul Sapkota, Shan Rizvi, Eric Horvitz, Joon Sung Park, Diyi Yang, Michael S. Bernstein
cs.AI

papers.abstract

Die Mensch-Computer-Interaktion hat sich schon lange Technologien vorgestellt, die uns verstehen – von unseren Vorlieben und Gewohnheiten bis hin zum Timing und Zweck unserer alltäglichen Handlungen. Dennoch bleiben aktuelle Benutzermodelle fragmentiert, eng auf spezifische Anwendungen zugeschnitten und unfähig zu dem flexiblen Denken, das erforderlich ist, um diese Visionen zu verwirklichen. Dieses Papier stellt eine Architektur für ein allgemeines Benutzermodell (General User Model, GUM) vor, das durch die Beobachtung jeglicher Interaktion, die Sie mit Ihrem Computer haben, über Sie lernt. Das GUM nimmt als Eingabe jede unstrukturierte Beobachtung eines Benutzers (z. B. Bildschirmfotos von Geräten) und konstruiert gewichtete Aussagen, die das Wissen und die Präferenzen dieses Benutzers erfassen. GUMs können beispielsweise ableiten, dass ein Benutzer sich auf eine Hochzeit vorbereitet, die er besucht, basierend auf Nachrichten mit einem Freund. Oder sie erkennen, dass ein Benutzer mit dem Feedback eines Mitarbeiters zu einem Entwurf kämpft, indem sie mehrere stockende Bearbeitungen und einen Wechsel zum Lesen verwandter Arbeiten beobachten. GUMs führen eine Architektur ein, die neue Aussagen über einen Benutzer aus multimodalen Beobachtungen ableitet, verwandte Aussagen für den Kontext abruft und bestehende Aussagen kontinuierlich überarbeitet. Um die Breite der Anwendungen zu veranschaulichen, die GUMs ermöglichen, zeigen wir, wie sie Chat-basierte Assistenten mit Kontext erweitern, Betriebssystembenachrichtigungen verwalten, um wichtige Informationen gezielt anzuzeigen, und interaktive Agenten ermöglichen, die sich an Präferenzen über Apps hinweg anpassen. Wir implementieren auch proaktive Assistenten (GUMBOs), die nützliche Vorschläge im Namen eines Benutzers entdecken und ausführen, indem sie dessen GUM nutzen. In unseren Auswertungen stellen wir fest, dass GUMs kalibrierte und präzise Schlussfolgerungen über Benutzer ziehen und dass Assistenten, die auf GUMs basieren, proaktiv Aktionen identifizieren und ausführen, die Benutzer nicht explizit anfordern würden. Insgesamt führen GUMs Methoden ein, die multimodale Modelle nutzen, um unstrukturierten Kontext zu verstehen, und ermöglichen damit langjährige Visionen der Mensch-Computer-Interaktion sowie völlig neue interaktive Systeme, die Benutzerbedürfnisse vorwegnehmen.
English
Human-computer interaction has long imagined technology that understands us-from our preferences and habits, to the timing and purpose of our everyday actions. Yet current user models remain fragmented, narrowly tailored to specific apps, and incapable of the flexible reasoning required to fulfill these visions. This paper presents an architecture for a general user model (GUM) that learns about you by observing any interaction you have with your computer. The GUM takes as input any unstructured observation of a user (e.g., device screenshots) and constructs confidence-weighted propositions that capture that user knowledge and preferences. GUMs can infer that a user is preparing for a wedding they're attending from messages with a friend. Or recognize that a user is struggling with a collaborator's feedback on a draft by observing multiple stalled edits and a switch to reading related work. GUMs introduce an architecture that infers new propositions about a user from multimodal observations, retrieves related propositions for context, and continuously revises existing propositions. To illustrate the breadth of applications that GUMs enable, we demonstrate how they augment chat-based assistants with context, manage OS notifications to selectively surface important information, and enable interactive agents that adapt to preferences across apps. We also instantiate proactive assistants (GUMBOs) that discover and execute useful suggestions on a user's behalf using their GUM. In our evaluations, we find that GUMs make calibrated and accurate inferences about users, and that assistants built on GUMs proactively identify and perform actions that users wouldn't think to request explicitly. Altogether, GUMs introduce methods that leverage multimodal models to understand unstructured context, enabling long-standing visions of HCI and entirely new interactive systems that anticipate user needs.
PDF32May 20, 2025