ChatPaper.aiChatPaper

Morae: ユーザーの選択を促すためのUIエージェントの能動的一時停止

Morae: Proactively Pausing UI Agents for User Choices

August 29, 2025
著者: Yi-Hao Peng, Dingzeyu Li, Jeffrey P. Bigham, Amy Pavel
cs.AI

要旨

ユーザーインターフェース(UI)エージェントは、視覚障害者や弱視者(BLVユーザー)にとってアクセスが困難または複雑なUIをより簡単に利用できるようにすることを約束します。しかし、現在のUIエージェントは通常、タスクをエンドツーエンドで実行し、重要な選択においてユーザーを関与させたり、重要な文脈情報をユーザーに伝えたりしないため、ユーザーの主体性を低下させています。例えば、私たちのフィールドスタディでは、BLVの参加者が最も安価なスパークリングウォーターを購入するよう依頼したところ、エージェントは同等の価格の複数の選択肢から自動的に1つを選び、異なるフレーバーやより高い評価を持つ代替製品について言及しませんでした。この問題に対処するため、私たちはMoraeを紹介します。Moraeは、タスク実行中に決定ポイントを自動的に識別し、ユーザーが選択を行えるよう一時停止するUIエージェントです。Moraeは大規模なマルチモーダルモデルを使用して、ユーザーのクエリをUIコードやスクリーンショットと共に解釈し、選択が必要な場合にユーザーに明確化を促します。BLV参加者を対象とした実世界のウェブタスクに関する研究では、Moraeはベースラインエージェント(OpenAI Operatorを含む)と比較して、ユーザーがより多くのタスクを完了し、自分の好みに合ったオプションを選択するのを支援しました。より広く言えば、この研究は、ユーザーがUIエージェントの自動化の恩恵を受けながら、自分の好みを表現できる混合イニシアティブアプローチの一例を示しています。
English
User interface (UI) agents promise to make inaccessible or complex UIs easier to access for blind and low-vision (BLV) users. However, current UI agents typically perform tasks end-to-end without involving users in critical choices or making them aware of important contextual information, thus reducing user agency. For example, in our field study, a BLV participant asked to buy the cheapest available sparkling water, and the agent automatically chose one from several equally priced options, without mentioning alternative products with different flavors or better ratings. To address this problem, we introduce Morae, a UI agent that automatically identifies decision points during task execution and pauses so that users can make choices. Morae uses large multimodal models to interpret user queries alongside UI code and screenshots, and prompt users for clarification when there is a choice to be made. In a study over real-world web tasks with BLV participants, Morae helped users complete more tasks and select options that better matched their preferences, as compared to baseline agents, including OpenAI Operator. More broadly, this work exemplifies a mixed-initiative approach in which users benefit from the automation of UI agents while being able to express their preferences.
PDF52September 1, 2025