ChatPaper.aiChatPaper

Criação de Modelos Gerais de Usuário a partir do Uso de Computador

Creating General User Models from Computer Use

May 16, 2025
Autores: Omar Shaikh, Shardul Sapkota, Shan Rizvi, Eric Horvitz, Joon Sung Park, Diyi Yang, Michael S. Bernstein
cs.AI

Resumo

A interação humano-computador há muito imagina tecnologias que nos compreendem — desde nossas preferências e hábitos até o momento e o propósito de nossas ações cotidianas. No entanto, os modelos de usuário atuais permanecem fragmentados, estreitamente adaptados a aplicativos específicos e incapazes de realizar o raciocínio flexível necessário para concretizar essas visões. Este artigo apresenta uma arquitetura para um modelo geral de usuário (GUM, na sigla em inglês) que aprende sobre você observando qualquer interação que você tenha com seu computador. O GUM recebe como entrada qualquer observação não estruturada de um usuário (por exemplo, capturas de tela de dispositivos) e constrói proposições ponderadas por confiança que capturam o conhecimento e as preferências desse usuário. Os GUMs podem inferir que um usuário está se preparando para um casamento ao qual comparecerá a partir de mensagens trocadas com um amigo. Ou reconhecer que um usuário está enfrentando dificuldades com o feedback de um colaborador em um rascunho ao observar múltiplas edições paralisadas e uma mudança para a leitura de trabalhos relacionados. Os GUMs introduzem uma arquitetura que infere novas proposições sobre um usuário a partir de observações multimodais, recupera proposições relacionadas para contexto e revisa continuamente as proposições existentes. Para ilustrar a amplitude de aplicações que os GUMs possibilitam, demonstramos como eles ampliam assistentes baseados em chat com contexto, gerenciam notificações do sistema operacional para destacar seletivamente informações importantes e permitem agentes interativos que se adaptam às preferências entre aplicativos. Também instanciamos assistentes proativos (GUMBOs) que descobrem e executam sugestões úteis em nome do usuário usando seu GUM. Em nossas avaliações, descobrimos que os GUMs fazem inferências calibradas e precisas sobre os usuários e que assistentes construídos sobre GUMs identificam e realizam proativamente ações que os usuários não pensariam em solicitar explicitamente. No geral, os GUMs introduzem métodos que aproveitam modelos multimodais para entender contextos não estruturados, permitindo visões de longa data da HCI e sistemas interativos totalmente novos que antecipam as necessidades dos usuários.
English
Human-computer interaction has long imagined technology that understands us-from our preferences and habits, to the timing and purpose of our everyday actions. Yet current user models remain fragmented, narrowly tailored to specific apps, and incapable of the flexible reasoning required to fulfill these visions. This paper presents an architecture for a general user model (GUM) that learns about you by observing any interaction you have with your computer. The GUM takes as input any unstructured observation of a user (e.g., device screenshots) and constructs confidence-weighted propositions that capture that user knowledge and preferences. GUMs can infer that a user is preparing for a wedding they're attending from messages with a friend. Or recognize that a user is struggling with a collaborator's feedback on a draft by observing multiple stalled edits and a switch to reading related work. GUMs introduce an architecture that infers new propositions about a user from multimodal observations, retrieves related propositions for context, and continuously revises existing propositions. To illustrate the breadth of applications that GUMs enable, we demonstrate how they augment chat-based assistants with context, manage OS notifications to selectively surface important information, and enable interactive agents that adapt to preferences across apps. We also instantiate proactive assistants (GUMBOs) that discover and execute useful suggestions on a user's behalf using their GUM. In our evaluations, we find that GUMs make calibrated and accurate inferences about users, and that assistants built on GUMs proactively identify and perform actions that users wouldn't think to request explicitly. Altogether, GUMs introduce methods that leverage multimodal models to understand unstructured context, enabling long-standing visions of HCI and entirely new interactive systems that anticipate user needs.
PDF52May 20, 2025