ChatPaper.aiChatPaper

Morae: Proactief Pauzeren van UI-Agents voor Gebruikerskeuzes

Morae: Proactively Pausing UI Agents for User Choices

August 29, 2025
Auteurs: Yi-Hao Peng, Dingzeyu Li, Jeffrey P. Bigham, Amy Pavel
cs.AI

Samenvatting

Gebruikersinterface (UI) agents beloven ontoegankelijke of complexe UI's gemakkelijker toegankelijk te maken voor blinde en slechtziende (BLV) gebruikers. Huidige UI-agents voeren echter typisch taken end-to-end uit zonder gebruikers te betrekken bij kritieke keuzes of hen bewust te maken van belangrijke contextuele informatie, waardoor de gebruikerscontrole wordt verminderd. In ons veldonderzoek vroeg bijvoorbeeld een BLV-deelnemer om het goedkoopste beschikbare bruisende water te kopen, en de agent koos automatisch een optie uit verschillende even dure alternatieven, zonder alternatieve producten met verschillende smaken of betere beoordelingen te vermelden. Om dit probleem aan te pakken, introduceren we Morae, een UI-agent die automatisch beslispunten identificeert tijdens de taakuitvoering en pauzeert zodat gebruikers keuzes kunnen maken. Morae gebruikt grote multimodale modellen om gebruikersvragen naast UI-code en schermafbeeldingen te interpreteren en vraagt gebruikers om verduidelijking wanneer er een keuze moet worden gemaakt. In een studie met real-world webtaken met BLV-deelnemers hielp Morae gebruikers meer taken te voltooien en opties te selecteren die beter aansloten bij hun voorkeuren, vergeleken met baseline agents, waaronder OpenAI Operator. In bredere zin illustreert dit werk een gemengd initiatiefbenadering waarin gebruikers profiteren van de automatisering van UI-agents terwijl ze hun voorkeuren kunnen uiten.
English
User interface (UI) agents promise to make inaccessible or complex UIs easier to access for blind and low-vision (BLV) users. However, current UI agents typically perform tasks end-to-end without involving users in critical choices or making them aware of important contextual information, thus reducing user agency. For example, in our field study, a BLV participant asked to buy the cheapest available sparkling water, and the agent automatically chose one from several equally priced options, without mentioning alternative products with different flavors or better ratings. To address this problem, we introduce Morae, a UI agent that automatically identifies decision points during task execution and pauses so that users can make choices. Morae uses large multimodal models to interpret user queries alongside UI code and screenshots, and prompt users for clarification when there is a choice to be made. In a study over real-world web tasks with BLV participants, Morae helped users complete more tasks and select options that better matched their preferences, as compared to baseline agents, including OpenAI Operator. More broadly, this work exemplifies a mixed-initiative approach in which users benefit from the automation of UI agents while being able to express their preferences.
PDF52September 1, 2025