Morae: Proaktives Anhalten von UI-Agenten für Benutzerentscheidungen
Morae: Proactively Pausing UI Agents for User Choices
August 29, 2025
papers.authors: Yi-Hao Peng, Dingzeyu Li, Jeffrey P. Bigham, Amy Pavel
cs.AI
papers.abstract
Benutzeroberflächen-Agenten (UI-Agenten) versprechen, unzugängliche oder komplexe Benutzeroberflächen für blinde und sehbehinderte (BLV) Nutzer leichter zugänglich zu machen. Allerdings führen aktuelle UI-Agenten typischerweise Aufgaben end-to-end aus, ohne die Nutzer in kritische Entscheidungen einzubeziehen oder sie über wichtige Kontextinformationen zu informieren, wodurch die Handlungsfähigkeit der Nutzer eingeschränkt wird. Beispielsweise bat in unserer Feldstudie ein BLV-Teilnehmer darum, das günstigste verfügbare Sprudelwasser zu kaufen, und der Agent wählte automatisch eines von mehreren gleichpreisigen Produkten aus, ohne alternative Produkte mit unterschiedlichen Geschmacksrichtungen oder besseren Bewertungen zu erwähnen. Um dieses Problem zu lösen, stellen wir Morae vor, einen UI-Agenten, der automatisch Entscheidungspunkte während der Aufgabenausführung identifiziert und anhält, damit Nutzer Entscheidungen treffen können. Morae nutzt große multimodale Modelle, um Benutzeranfragen zusammen mit UI-Code und Screenshots zu interpretieren und die Nutzer um Klärung zu bitten, wenn eine Entscheidung ansteht. In einer Studie mit realen Webaufgaben und BLV-Teilnehmern half Morae den Nutzern, mehr Aufgaben zu erledigen und Optionen auszuwählen, die besser ihren Präferenzen entsprachen, im Vergleich zu Baseline-Agenten, einschließlich OpenAI Operator. Im weiteren Sinne veranschaulicht diese Arbeit einen Mixed-Initiative-Ansatz, bei dem Nutzer von der Automatisierung durch UI-Agenten profitieren, während sie gleichzeitig ihre Präferenzen ausdrücken können.
English
User interface (UI) agents promise to make inaccessible or complex UIs easier
to access for blind and low-vision (BLV) users. However, current UI agents
typically perform tasks end-to-end without involving users in critical choices
or making them aware of important contextual information, thus reducing user
agency. For example, in our field study, a BLV participant asked to buy the
cheapest available sparkling water, and the agent automatically chose one from
several equally priced options, without mentioning alternative products with
different flavors or better ratings. To address this problem, we introduce
Morae, a UI agent that automatically identifies decision points during task
execution and pauses so that users can make choices. Morae uses large
multimodal models to interpret user queries alongside UI code and screenshots,
and prompt users for clarification when there is a choice to be made. In a
study over real-world web tasks with BLV participants, Morae helped users
complete more tasks and select options that better matched their preferences,
as compared to baseline agents, including OpenAI Operator. More broadly, this
work exemplifies a mixed-initiative approach in which users benefit from the
automation of UI agents while being able to express their preferences.