Criação de Modelos Gerais de Usuário a partir do Uso de Computador
Creating General User Models from Computer Use
May 16, 2025
Autores: Omar Shaikh, Shardul Sapkota, Shan Rizvi, Eric Horvitz, Joon Sung Park, Diyi Yang, Michael S. Bernstein
cs.AI
Resumo
A interação humano-computador há muito imagina tecnologias que nos compreendem — desde nossas preferências e hábitos até o momento e o propósito de nossas ações cotidianas. No entanto, os modelos de usuário atuais permanecem fragmentados, estreitamente adaptados a aplicativos específicos e incapazes de realizar o raciocínio flexível necessário para concretizar essas visões. Este artigo apresenta uma arquitetura para um modelo geral de usuário (GUM, na sigla em inglês) que aprende sobre você observando qualquer interação que você tenha com seu computador. O GUM recebe como entrada qualquer observação não estruturada de um usuário (por exemplo, capturas de tela de dispositivos) e constrói proposições ponderadas por confiança que capturam o conhecimento e as preferências desse usuário. Os GUMs podem inferir que um usuário está se preparando para um casamento ao qual comparecerá a partir de mensagens trocadas com um amigo. Ou reconhecer que um usuário está enfrentando dificuldades com o feedback de um colaborador em um rascunho ao observar múltiplas edições paralisadas e uma mudança para a leitura de trabalhos relacionados. Os GUMs introduzem uma arquitetura que infere novas proposições sobre um usuário a partir de observações multimodais, recupera proposições relacionadas para contexto e revisa continuamente as proposições existentes. Para ilustrar a amplitude de aplicações que os GUMs possibilitam, demonstramos como eles ampliam assistentes baseados em chat com contexto, gerenciam notificações do sistema operacional para destacar seletivamente informações importantes e permitem agentes interativos que se adaptam às preferências entre aplicativos. Também instanciamos assistentes proativos (GUMBOs) que descobrem e executam sugestões úteis em nome do usuário usando seu GUM. Em nossas avaliações, descobrimos que os GUMs fazem inferências calibradas e precisas sobre os usuários e que assistentes construídos sobre GUMs identificam e realizam proativamente ações que os usuários não pensariam em solicitar explicitamente. No geral, os GUMs introduzem métodos que aproveitam modelos multimodais para entender contextos não estruturados, permitindo visões de longa data da HCI e sistemas interativos totalmente novos que antecipam as necessidades dos usuários.
English
Human-computer interaction has long imagined technology that understands
us-from our preferences and habits, to the timing and purpose of our everyday
actions. Yet current user models remain fragmented, narrowly tailored to
specific apps, and incapable of the flexible reasoning required to fulfill
these visions. This paper presents an architecture for a general user model
(GUM) that learns about you by observing any interaction you have with your
computer. The GUM takes as input any unstructured observation of a user (e.g.,
device screenshots) and constructs confidence-weighted propositions that
capture that user knowledge and preferences. GUMs can infer that a user is
preparing for a wedding they're attending from messages with a friend. Or
recognize that a user is struggling with a collaborator's feedback on a draft
by observing multiple stalled edits and a switch to reading related work. GUMs
introduce an architecture that infers new propositions about a user from
multimodal observations, retrieves related propositions for context, and
continuously revises existing propositions. To illustrate the breadth of
applications that GUMs enable, we demonstrate how they augment chat-based
assistants with context, manage OS notifications to selectively surface
important information, and enable interactive agents that adapt to preferences
across apps. We also instantiate proactive assistants (GUMBOs) that discover
and execute useful suggestions on a user's behalf using their GUM. In our
evaluations, we find that GUMs make calibrated and accurate inferences about
users, and that assistants built on GUMs proactively identify and perform
actions that users wouldn't think to request explicitly. Altogether, GUMs
introduce methods that leverage multimodal models to understand unstructured
context, enabling long-standing visions of HCI and entirely new interactive
systems that anticipate user needs.