Morae: Активное приостановление агентов пользовательского интерфейса для предоставления выбора пользователю
Morae: Proactively Pausing UI Agents for User Choices
August 29, 2025
Авторы: Yi-Hao Peng, Dingzeyu Li, Jeffrey P. Bigham, Amy Pavel
cs.AI
Аннотация
Агенты пользовательского интерфейса (UI) обещают сделать недоступные или сложные интерфейсы более доступными для пользователей с нарушениями зрения (BLV). Однако современные UI-агенты обычно выполняют задачи от начала до конца, не вовлекая пользователей в принятие ключевых решений и не информируя их о важной контекстной информации, что снижает степень контроля пользователя. Например, в нашем полевом исследовании участник с нарушением зрения попросил купить самую дешевую газированную воду, и агент автоматически выбрал один из нескольких вариантов с одинаковой ценой, не упомянув альтернативные продукты с разными вкусами или более высокими оценками. Чтобы решить эту проблему, мы представляем Morae — UI-агента, который автоматически определяет точки принятия решений в процессе выполнения задачи и приостанавливает выполнение, чтобы пользователь мог сделать выбор. Morae использует крупные мультимодальные модели для интерпретации запросов пользователя вместе с кодом интерфейса и скриншотами, а также запрашивает уточнения у пользователя, когда необходимо принять решение. В исследовании, проведенном на реальных веб-задачах с участием пользователей BLV, Morae помог пользователям выполнить больше задач и выбрать варианты, лучше соответствующие их предпочтениям, по сравнению с базовыми агентами, включая OpenAI Operator. В более широком смысле эта работа демонстрирует смешанный подход, при котором пользователи получают преимущества автоматизации UI-агентов, сохраняя возможность выражать свои предпочтения.
English
User interface (UI) agents promise to make inaccessible or complex UIs easier
to access for blind and low-vision (BLV) users. However, current UI agents
typically perform tasks end-to-end without involving users in critical choices
or making them aware of important contextual information, thus reducing user
agency. For example, in our field study, a BLV participant asked to buy the
cheapest available sparkling water, and the agent automatically chose one from
several equally priced options, without mentioning alternative products with
different flavors or better ratings. To address this problem, we introduce
Morae, a UI agent that automatically identifies decision points during task
execution and pauses so that users can make choices. Morae uses large
multimodal models to interpret user queries alongside UI code and screenshots,
and prompt users for clarification when there is a choice to be made. In a
study over real-world web tasks with BLV participants, Morae helped users
complete more tasks and select options that better matched their preferences,
as compared to baseline agents, including OpenAI Operator. More broadly, this
work exemplifies a mixed-initiative approach in which users benefit from the
automation of UI agents while being able to express their preferences.