Morae: Pausando Proativamente Agentes de Interface para Escolhas do Usuário
Morae: Proactively Pausing UI Agents for User Choices
August 29, 2025
Autores: Yi-Hao Peng, Dingzeyu Li, Jeffrey P. Bigham, Amy Pavel
cs.AI
Resumo
Agentes de interface do usuário (UI) prometem tornar interfaces inacessíveis ou complexas mais fáceis de utilizar para usuários cegos ou com baixa visão (BLV). No entanto, os agentes de UI atuais geralmente executam tarefas de ponta a ponta sem envolver os usuários em escolhas críticas ou torná-los cientes de informações contextuais importantes, reduzindo assim a autonomia do usuário. Por exemplo, em nosso estudo de campo, um participante BLV solicitou a compra da água com gás mais barata disponível, e o agente escolheu automaticamente uma entre várias opções de preço igual, sem mencionar produtos alternativos com sabores diferentes ou melhores avaliações. Para resolver esse problema, apresentamos o Morae, um agente de UI que identifica automaticamente pontos de decisão durante a execução de tarefas e faz pausas para que os usuários possam fazer escolhas. O Morae utiliza modelos multimodais de grande escala para interpretar consultas dos usuários juntamente com o código da UI e capturas de tela, solicitando esclarecimentos aos usuários quando há uma escolha a ser feita. Em um estudo com tarefas reais na web envolvendo participantes BLV, o Morae ajudou os usuários a concluir mais tarefas e selecionar opções que melhor correspondiam às suas preferências, em comparação com agentes de referência, incluindo o OpenAI Operator. De forma mais ampla, este trabalho exemplifica uma abordagem de iniciativa mista em que os usuários se beneficiam da automação dos agentes de UI, ao mesmo tempo em que podem expressar suas preferências.
English
User interface (UI) agents promise to make inaccessible or complex UIs easier
to access for blind and low-vision (BLV) users. However, current UI agents
typically perform tasks end-to-end without involving users in critical choices
or making them aware of important contextual information, thus reducing user
agency. For example, in our field study, a BLV participant asked to buy the
cheapest available sparkling water, and the agent automatically chose one from
several equally priced options, without mentioning alternative products with
different flavors or better ratings. To address this problem, we introduce
Morae, a UI agent that automatically identifies decision points during task
execution and pauses so that users can make choices. Morae uses large
multimodal models to interpret user queries alongside UI code and screenshots,
and prompt users for clarification when there is a choice to be made. In a
study over real-world web tasks with BLV participants, Morae helped users
complete more tasks and select options that better matched their preferences,
as compared to baseline agents, including OpenAI Operator. More broadly, this
work exemplifies a mixed-initiative approach in which users benefit from the
automation of UI agents while being able to express their preferences.