ChatPaper.aiChatPaper

화면 속 튜링 테스트: 모바일 GUI 에이전트 인간화를 위한 벤치마크

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

February 24, 2026
저자: Jiachen Zhu, Lingyu Yang, Rong Shan, Congmin Zheng, Zeyu Zheng, Weiwen Liu, Yong Yu, Weinan Zhang, Jianghao Lin
cs.AI

초록

자율 GUI 에이전트의 부상은 디지털 플랫폼의 적대적 대응을 촉발했으나, 기존 연구는 탐지 회피라는 핵심적 차원보다 유용성과 견고성을 우선시해왔다. 본 연구는 에이전트가 인간 중심 생태계에서 생존하기 위해서는 인간화 능력을 진화시켜야 한다고 주장한다. 우리는 '화면 상의 튜링 테스트'를 도입하여, 탐지기와 행동적 차이를 최소화하려는 에이전트 간의 상호작용을 미니맥스 최적화 문제로 공식적으로 모델링한다. 이어서 새로운 고충실도 모바일 터치 다이내믹스 데이터셋을 구축하고, 분석을 통해 일반 LMM 기반 에이전트가 비자연적인 운동학적 특성으로 인해 쉽게 탐지됨을 확인한다. 이에 따라 에이전트 인간화 벤치마크(AHB)와 탐지 메트릭을 설계하여 모방 가능성과 유용성 간의 상충 관계를 정량화한다. 마지막으로 휴리스틱 노이즈 추가부터 데이터 기반 행동 매칭에 이르는 방법론을 제안하며, 에이전트가 성능 저하 없이 이론적 및 실증적으로 높은 모방 가능성을 달성할 수 있음을 입증한다. 본 연구는 '에이전트가 작업을 수행할 수 있는지'의 패러다임에서 '인간 중심 생태계 내에서 어떻게 수행하는지'로의 전환을 촉진하며, 적대적 디지털 환경에서의 원활한 공존을 위한 기반을 마련한다.
English
The rise of autonomous GUI agents has triggered adversarial countermeasures from digital platforms, yet existing research prioritizes utility and robustness over the critical dimension of anti-detection. We argue that for agents to survive in human-centric ecosystems, they must evolve Humanization capabilities. We introduce the ``Turing Test on Screen,'' formally modeling the interaction as a MinMax optimization problem between a detector and an agent aiming to minimize behavioral divergence. We then collect a new high-fidelity dataset of mobile touch dynamics, and conduct our analysis that vanilla LMM-based agents are easily detectable due to unnatural kinematics. Consequently, we establish the Agent Humanization Benchmark (AHB) and detection metrics to quantify the trade-off between imitability and utility. Finally, we propose methods ranging from heuristic noise to data-driven behavioral matching, demonstrating that agents can achieve high imitability theoretically and empirically without sacrificing performance. This work shifts the paradigm from whether an agent can perform a task to how it performs it within a human-centric ecosystem, laying the groundwork for seamless coexistence in adversarial digital environments.
PDF261April 16, 2026