Creación de Modelos Generales de Usuario a partir del Uso de Computadoras
Creating General User Models from Computer Use
May 16, 2025
Autores: Omar Shaikh, Shardul Sapkota, Shan Rizvi, Eric Horvitz, Joon Sung Park, Diyi Yang, Michael S. Bernstein
cs.AI
Resumen
La interacción humano-computadora ha imaginado durante mucho tiempo tecnología que nos comprende, desde nuestras preferencias y hábitos hasta el momento y propósito de nuestras acciones cotidianas. Sin embargo, los modelos de usuario actuales siguen siendo fragmentados, adaptados de manera estrecha a aplicaciones específicas e incapaces del razonamiento flexible necesario para cumplir estas visiones. Este artículo presenta una arquitectura para un modelo de usuario general (GUM, por sus siglas en inglés) que aprende sobre ti al observar cualquier interacción que tengas con tu computadora. El GUM toma como entrada cualquier observación no estructurada de un usuario (por ejemplo, capturas de pantalla de dispositivos) y construye proposiciones ponderadas por confianza que capturan el conocimiento y las preferencias de ese usuario. Los GUM pueden inferir que un usuario se está preparando para una boda a la que asistirá a partir de mensajes con un amigo. O reconocer que un usuario está lidiando con los comentarios de un colaborador sobre un borrador al observar múltiples ediciones estancadas y un cambio a la lectura de trabajos relacionados. Los GUM introducen una arquitectura que infiere nuevas proposiciones sobre un usuario a partir de observaciones multimodales, recupera proposiciones relacionadas para obtener contexto y revisa continuamente las proposiciones existentes. Para ilustrar la amplitud de aplicaciones que los GUM permiten, demostramos cómo aumentan los asistentes basados en chat con contexto, gestionan las notificaciones del sistema operativo para mostrar selectivamente información importante y habilitan agentes interactivos que se adaptan a las preferencias entre aplicaciones. También instanciamos asistentes proactivos (GUMBOs) que descubren y ejecutan sugerencias útiles en nombre de un usuario utilizando su GUM. En nuestras evaluaciones, encontramos que los GUM hacen inferencias calibradas y precisas sobre los usuarios, y que los asistentes construidos sobre GUM identifican y realizan proactivamente acciones que los usuarios no pensarían en solicitar explícitamente. En conjunto, los GUM introducen métodos que aprovechan los modelos multimodales para comprender el contexto no estructurado, permitiendo visiones de larga data de la interacción humano-computadora y sistemas interactivos completamente nuevos que anticipan las necesidades del usuario.
English
Human-computer interaction has long imagined technology that understands
us-from our preferences and habits, to the timing and purpose of our everyday
actions. Yet current user models remain fragmented, narrowly tailored to
specific apps, and incapable of the flexible reasoning required to fulfill
these visions. This paper presents an architecture for a general user model
(GUM) that learns about you by observing any interaction you have with your
computer. The GUM takes as input any unstructured observation of a user (e.g.,
device screenshots) and constructs confidence-weighted propositions that
capture that user knowledge and preferences. GUMs can infer that a user is
preparing for a wedding they're attending from messages with a friend. Or
recognize that a user is struggling with a collaborator's feedback on a draft
by observing multiple stalled edits and a switch to reading related work. GUMs
introduce an architecture that infers new propositions about a user from
multimodal observations, retrieves related propositions for context, and
continuously revises existing propositions. To illustrate the breadth of
applications that GUMs enable, we demonstrate how they augment chat-based
assistants with context, manage OS notifications to selectively surface
important information, and enable interactive agents that adapt to preferences
across apps. We also instantiate proactive assistants (GUMBOs) that discover
and execute useful suggestions on a user's behalf using their GUM. In our
evaluations, we find that GUMs make calibrated and accurate inferences about
users, and that assistants built on GUMs proactively identify and perform
actions that users wouldn't think to request explicitly. Altogether, GUMs
introduce methods that leverage multimodal models to understand unstructured
context, enabling long-standing visions of HCI and entirely new interactive
systems that anticipate user needs.Summary
AI-Generated Summary