Morae: Sospensione Proattiva degli Agenti UI per le Scelte dell'Utente
Morae: Proactively Pausing UI Agents for User Choices
August 29, 2025
Autori: Yi-Hao Peng, Dingzeyu Li, Jeffrey P. Bigham, Amy Pavel
cs.AI
Abstract
Gli agenti di interfaccia utente (UI) promettono di rendere più accessibili le UI complesse o inaccessibili per gli utenti non vedenti o ipovedenti (BLV). Tuttavia, gli attuali agenti UI eseguono tipicamente i compiti in modo end-to-end senza coinvolgere gli utenti nelle scelte critiche o renderli consapevoli di informazioni contestuali importanti, riducendo così l’agenzia dell’utente. Ad esempio, nel nostro studio sul campo, un partecipante BLV ha chiesto di acquistare l’acqua frizzante più economica disponibile, e l’agente ha scelto automaticamente una tra diverse opzioni allo stesso prezzo, senza menzionare prodotti alternativi con sapori diversi o valutazioni migliori. Per affrontare questo problema, introduciamo Morae, un agente UI che identifica automaticamente i punti di decisione durante l’esecuzione dei compiti e si ferma per consentire agli utenti di fare scelte. Morae utilizza modelli multimodali di grandi dimensioni per interpretare le query degli utenti insieme al codice dell’interfaccia e agli screenshot, e chiede chiarimenti agli utenti quando è necessario fare una scelta. In uno studio su compiti web del mondo reale con partecipanti BLV, Morae ha aiutato gli utenti a completare più compiti e selezionare opzioni che corrispondevano meglio alle loro preferenze, rispetto agli agenti di base, incluso OpenAI Operator. Più in generale, questo lavoro esemplifica un approccio a iniziativa mista in cui gli utenti beneficiano dell’automazione degli agenti UI pur potendo esprimere le proprie preferenze.
English
User interface (UI) agents promise to make inaccessible or complex UIs easier
to access for blind and low-vision (BLV) users. However, current UI agents
typically perform tasks end-to-end without involving users in critical choices
or making them aware of important contextual information, thus reducing user
agency. For example, in our field study, a BLV participant asked to buy the
cheapest available sparkling water, and the agent automatically chose one from
several equally priced options, without mentioning alternative products with
different flavors or better ratings. To address this problem, we introduce
Morae, a UI agent that automatically identifies decision points during task
execution and pauses so that users can make choices. Morae uses large
multimodal models to interpret user queries alongside UI code and screenshots,
and prompt users for clarification when there is a choice to be made. In a
study over real-world web tasks with BLV participants, Morae helped users
complete more tasks and select options that better matched their preferences,
as compared to baseline agents, including OpenAI Operator. More broadly, this
work exemplifies a mixed-initiative approach in which users benefit from the
automation of UI agents while being able to express their preferences.