Creazione di Modelli Utente Generali dall'Uso del Computer
Creating General User Models from Computer Use
May 16, 2025
Autori: Omar Shaikh, Shardul Sapkota, Shan Rizvi, Eric Horvitz, Joon Sung Park, Diyi Yang, Michael S. Bernstein
cs.AI
Abstract
L'interazione uomo-computer ha da tempo immaginato tecnologie in grado di comprenderci, dalle nostre preferenze e abitudini, ai tempi e agli scopi delle nostre azioni quotidiane. Tuttavia, i modelli utente attuali rimangono frammentati, strettamente adattati a specifiche applicazioni e incapaci di ragionamenti flessibili necessari per realizzare queste visioni. Questo articolo presenta un'architettura per un modello utente generale (GUM) che apprende informazioni su di te osservando qualsiasi interazione che hai con il tuo computer. Il GUM prende in input qualsiasi osservazione non strutturata di un utente (ad esempio, screenshot del dispositivo) e costruisce proposizioni ponderate in base alla confidenza che catturano la conoscenza e le preferenze di quell'utente. I GUM possono dedurre che un utente si sta preparando per un matrimonio a cui parteciperà da messaggi con un amico. O riconoscere che un utente sta affrontando difficoltà con il feedback di un collaboratore su una bozza osservando molteplici modifiche bloccate e un passaggio alla lettura di lavori correlati. I GUM introducono un'architettura che deduce nuove proposizioni su un utente da osservazioni multimodali, recupera proposizioni correlate per il contesto e rivede continuamente le proposizioni esistenti. Per illustrare l'ampiezza delle applicazioni abilitate dai GUM, dimostriamo come essi arricchiscono gli assistenti basati su chat con il contesto, gestiscono le notifiche del sistema operativo per evidenziare selettivamente informazioni importanti e abilitano agenti interattivi che si adattano alle preferenze tra le applicazioni. Istanziamo inoltre assistenti proattivi (GUMBO) che scoprono ed eseguono suggerimenti utili per conto di un utente utilizzando il loro GUM. Nelle nostre valutazioni, scopriamo che i GUM effettuano inferenze calibrate e accurate sugli utenti e che gli assistenti basati sui GUM identificano e eseguono proattivamente azioni che gli utenti non penserebbero di richiedere esplicitamente. Nel complesso, i GUM introducono metodi che sfruttano modelli multimodali per comprendere il contesto non strutturato, abilitando visioni di lunga data dell'HCI e sistemi interattivi completamente nuovi che anticipano le esigenze degli utenti.
English
Human-computer interaction has long imagined technology that understands
us-from our preferences and habits, to the timing and purpose of our everyday
actions. Yet current user models remain fragmented, narrowly tailored to
specific apps, and incapable of the flexible reasoning required to fulfill
these visions. This paper presents an architecture for a general user model
(GUM) that learns about you by observing any interaction you have with your
computer. The GUM takes as input any unstructured observation of a user (e.g.,
device screenshots) and constructs confidence-weighted propositions that
capture that user knowledge and preferences. GUMs can infer that a user is
preparing for a wedding they're attending from messages with a friend. Or
recognize that a user is struggling with a collaborator's feedback on a draft
by observing multiple stalled edits and a switch to reading related work. GUMs
introduce an architecture that infers new propositions about a user from
multimodal observations, retrieves related propositions for context, and
continuously revises existing propositions. To illustrate the breadth of
applications that GUMs enable, we demonstrate how they augment chat-based
assistants with context, manage OS notifications to selectively surface
important information, and enable interactive agents that adapt to preferences
across apps. We also instantiate proactive assistants (GUMBOs) that discover
and execute useful suggestions on a user's behalf using their GUM. In our
evaluations, we find that GUMs make calibrated and accurate inferences about
users, and that assistants built on GUMs proactively identify and perform
actions that users wouldn't think to request explicitly. Altogether, GUMs
introduce methods that leverage multimodal models to understand unstructured
context, enabling long-standing visions of HCI and entirely new interactive
systems that anticipate user needs.