Morae: Pausa proactiva de agentes de interfaz de usuario para elecciones del usuario

Resumen

Los agentes de interfaz de usuario (UI) prometen hacer que las interfaces inaccesibles o complejas sean más fáciles de usar para personas ciegas o con baja visión (BLV, por sus siglas en inglés). Sin embargo, los agentes de UI actuales suelen realizar tareas de principio a fin sin involucrar a los usuarios en decisiones críticas ni informarles sobre información contextual importante, lo que reduce su capacidad de agencia. Por ejemplo, en nuestro estudio de campo, un participante BLV solicitó comprar el agua con gas más barata disponible, y el agente eligió automáticamente una entre varias opciones de igual precio, sin mencionar productos alternativos con diferentes sabores o mejores calificaciones. Para abordar este problema, presentamos Morae, un agente de UI que identifica automáticamente puntos de decisión durante la ejecución de tareas y se detiene para que los usuarios puedan tomar decisiones. Morae utiliza modelos multimodales de gran escala para interpretar consultas de los usuarios junto con el código de la UI y capturas de pantalla, y solicita aclaraciones a los usuarios cuando hay una elección por hacer. En un estudio sobre tareas web del mundo real con participantes BLV, Morae ayudó a los usuarios a completar más tareas y seleccionar opciones que se ajustaban mejor a sus preferencias, en comparación con agentes de referencia, incluido OpenAI Operator. En términos más generales, este trabajo ejemplifica un enfoque de iniciativa mixta en el que los usuarios se benefician de la automatización de los agentes de UI mientras pueden expresar sus preferencias.

English

User interface (UI) agents promise to make inaccessible or complex UIs easier to access for blind and low-vision (BLV) users. However, current UI agents typically perform tasks end-to-end without involving users in critical choices or making them aware of important contextual information, thus reducing user agency. For example, in our field study, a BLV participant asked to buy the cheapest available sparkling water, and the agent automatically chose one from several equally priced options, without mentioning alternative products with different flavors or better ratings. To address this problem, we introduce Morae, a UI agent that automatically identifies decision points during task execution and pauses so that users can make choices. Morae uses large multimodal models to interpret user queries alongside UI code and screenshots, and prompt users for clarification when there is a choice to be made. In a study over real-world web tasks with BLV participants, Morae helped users complete more tasks and select options that better matched their preferences, as compared to baseline agents, including OpenAI Operator. More broadly, this work exemplifies a mixed-initiative approach in which users benefit from the automation of UI agents while being able to express their preferences.

Morae: Pausa proactiva de agentes de interfaz de usuario para elecciones del usuario

Morae: Proactively Pausing UI Agents for User Choices

Resumen

Support