Morae: 사용자 선택을 위한 UI 에이전트의 사전적 일시정지
Morae: Proactively Pausing UI Agents for User Choices
August 29, 2025
저자: Yi-Hao Peng, Dingzeyu Li, Jeffrey P. Bigham, Amy Pavel
cs.AI
초록
사용자 인터페이스(UI) 에이전트는 시각 장애인 및 저시력(BLV) 사용자들이 접근하기 어렵거나 복잡한 UI를 더 쉽게 이용할 수 있도록 돕는 가능성을 보여줍니다. 그러나 현재의 UI 에이전트는 일반적으로 사용자를 중요한 선택 과정에 포함시키거나 중요한 상황 정보를 알리지 않고 종단 간 작업을 수행함으로써 사용자의 주체성을 감소시킵니다. 예를 들어, 우리의 현장 연구에서 한 BLV 참가자가 가장 저렴한 탄산수를 구매하도록 요청했을 때, 에이전트는 동일한 가격대의 여러 옵션 중 하나를 자동으로 선택했으며, 다른 맛이나 더 나은 평점을 가진 대체 제품에 대해 언급하지 않았습니다. 이 문제를 해결하기 위해, 우리는 작업 실행 중에 결정 지점을 자동으로 식별하고 사용자가 선택을 할 수 있도록 일시 정지하는 UI 에이전트인 Morae를 소개합니다. Morae는 대규모 멀티모달 모델을 사용하여 사용자 쿼리와 UI 코드 및 스크린샷을 해석하고, 선택이 필요한 경우 사용자에게 명확히 요청합니다. BLV 참가자들과 함께 실제 웹 작업에 대한 연구에서 Morae는 사용자가 더 많은 작업을 완료하고 선호도에 더 잘 맞는 옵션을 선택하도록 돕는 것으로 나타났으며, 이는 OpenAI Operator를 포함한 기준 에이전트와 비교했을 때 더 나은 성과를 보였습니다. 더 넓은 관점에서, 이 작업은 사용자가 UI 에이전트의 자동화로부터 혜택을 받으면서도 자신의 선호도를 표현할 수 있는 혼합 주도적 접근 방식을 구현한 사례입니다.
English
User interface (UI) agents promise to make inaccessible or complex UIs easier
to access for blind and low-vision (BLV) users. However, current UI agents
typically perform tasks end-to-end without involving users in critical choices
or making them aware of important contextual information, thus reducing user
agency. For example, in our field study, a BLV participant asked to buy the
cheapest available sparkling water, and the agent automatically chose one from
several equally priced options, without mentioning alternative products with
different flavors or better ratings. To address this problem, we introduce
Morae, a UI agent that automatically identifies decision points during task
execution and pauses so that users can make choices. Morae uses large
multimodal models to interpret user queries alongside UI code and screenshots,
and prompt users for clarification when there is a choice to be made. In a
study over real-world web tasks with BLV participants, Morae helped users
complete more tasks and select options that better matched their preferences,
as compared to baseline agents, including OpenAI Operator. More broadly, this
work exemplifies a mixed-initiative approach in which users benefit from the
automation of UI agents while being able to express their preferences.