Morae : Mise en pause proactive des agents d'interface utilisateur pour les choix de l'utilisateur
Morae: Proactively Pausing UI Agents for User Choices
August 29, 2025
papers.authors: Yi-Hao Peng, Dingzeyu Li, Jeffrey P. Bigham, Amy Pavel
cs.AI
papers.abstract
Les agents d'interface utilisateur (UI) promettent de rendre les interfaces inaccessibles ou complexes plus faciles à utiliser pour les utilisateurs aveugles ou malvoyants (BLV). Cependant, les agents d'UI actuels exécutent généralement les tâches de bout en bout sans impliquer les utilisateurs dans les choix critiques ou sans les informer des informations contextuelles importantes, réduisant ainsi leur autonomie. Par exemple, dans notre étude de terrain, un participant BLV a demandé à acheter l'eau pétillante la moins chère disponible, et l'agent en a automatiquement choisi une parmi plusieurs options au même prix, sans mentionner les produits alternatifs avec des saveurs différentes ou de meilleures évaluations. Pour résoudre ce problème, nous présentons Morae, un agent d'UI qui identifie automatiquement les points de décision lors de l'exécution des tâches et fait une pause pour permettre aux utilisateurs de faire des choix. Morae utilise des modèles multimodaux de grande envergure pour interpréter les requêtes des utilisateurs ainsi que le code de l'interface et les captures d'écran, et invite les utilisateurs à clarifier leurs préférences lorsqu'un choix doit être fait. Dans une étude portant sur des tâches web réelles avec des participants BLV, Morae a aidé les utilisateurs à accomplir plus de tâches et à sélectionner des options correspondant mieux à leurs préférences, par rapport aux agents de référence, y compris OpenAI Operator. Plus largement, ce travail illustre une approche à initiative mixte dans laquelle les utilisateurs bénéficient de l'automatisation des agents d'UI tout en ayant la possibilité d'exprimer leurs préférences.
English
User interface (UI) agents promise to make inaccessible or complex UIs easier
to access for blind and low-vision (BLV) users. However, current UI agents
typically perform tasks end-to-end without involving users in critical choices
or making them aware of important contextual information, thus reducing user
agency. For example, in our field study, a BLV participant asked to buy the
cheapest available sparkling water, and the agent automatically chose one from
several equally priced options, without mentioning alternative products with
different flavors or better ratings. To address this problem, we introduce
Morae, a UI agent that automatically identifies decision points during task
execution and pauses so that users can make choices. Morae uses large
multimodal models to interpret user queries alongside UI code and screenshots,
and prompt users for clarification when there is a choice to be made. In a
study over real-world web tasks with BLV participants, Morae helped users
complete more tasks and select options that better matched their preferences,
as compared to baseline agents, including OpenAI Operator. More broadly, this
work exemplifies a mixed-initiative approach in which users benefit from the
automation of UI agents while being able to express their preferences.