画面におけるチューリングテスト:モバイルGUIエージェントの人間らしさのベンチマーク
Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization
February 24, 2026
著者: Jiachen Zhu, Lingyu Yang, Rong Shan, Congmin Zheng, Zeyu Zheng, Weiwen Liu, Yong Yu, Weinan Zhang, Jianghao Lin
cs.AI
要旨
自律的なGUIエージェントの台頭は、デジタルプラットフォームによる敵対的対策を引き起こしているが、既存研究は有用性と頑健性を優先し、検知回避という重要な次元を軽視している。我々は、エージェントが人間中心のエコシステムで存続するためには、人間化能力を進化させなければならないと主張する。本論文では「画面上のチューリングテスト」を導入し、検知器と行動の乖離を最小化しようとするエージェント間の相互作用をMinMax最適化問題として定式化する。さらに、高精度なモバイルタッチダイナミクスの新規データセットを収集し、従来のLMMベースエージェントが不自然な運動特性により容易に検知されることを分析する。これに基づき、模倣可能性と有用性のトレードオフを定量化するためのAgent Humanization Benchmark(AHB)と検知指標を確立する。最後に、ヒューリスティックなノイズ付加からデータ駆動型の行動マッチングに至る手法を提案し、エージェントが性能を犠牲にすることなく理論的・実証的に高い模倣可能性を達成できることを示す。本研究は、エージェントがタスクを「実行できるか」から、人間中心のエコシステム内で「どのように実行するか」というパラダイム転換を促し、敵対的デジタル環境におけるシームレスな共存の基盤を築くものである。
English
The rise of autonomous GUI agents has triggered adversarial countermeasures from digital platforms, yet existing research prioritizes utility and robustness over the critical dimension of anti-detection. We argue that for agents to survive in human-centric ecosystems, they must evolve Humanization capabilities. We introduce the ``Turing Test on Screen,'' formally modeling the interaction as a MinMax optimization problem between a detector and an agent aiming to minimize behavioral divergence. We then collect a new high-fidelity dataset of mobile touch dynamics, and conduct our analysis that vanilla LMM-based agents are easily detectable due to unnatural kinematics. Consequently, we establish the Agent Humanization Benchmark (AHB) and detection metrics to quantify the trade-off between imitability and utility. Finally, we propose methods ranging from heuristic noise to data-driven behavioral matching, demonstrating that agents can achieve high imitability theoretically and empirically without sacrificing performance. This work shifts the paradigm from whether an agent can perform a task to how it performs it within a human-centric ecosystem, laying the groundwork for seamless coexistence in adversarial digital environments.