Тест Тьюринга на экране: эталонный тест для гуманизации мобильных GUI-агентов
Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization
February 24, 2026
Авторы: Jiachen Zhu, Lingyu Yang, Rong Shan, Congmin Zheng, Zeyu Zheng, Weiwen Liu, Yong Yu, Weinan Zhang, Jianghao Lin
cs.AI
Аннотация
Подъем автономных GUI-агентов спровоцировал принятие защитных мер со стороны цифровых платформ, однако существующие исследования отдают приоритет полезности и надежности в ущерб критически важному аспекту противодействия обнаружению. Мы утверждаем, что для выживания в антропоцентричных экосистемах агенты должны развивать способности к гуманизации. Мы вводим концепцию «Тьюринга на экране», формально моделируя взаимодействие как задачу минимаксной оптимизации между детектором и агентом, стремящимся минимизировать поведенческое расхождение. Затем мы собираем новый высокоточный набор данных о мобильной тач-динамике и проводим анализ, показывающий, что базовые агенты на основе LMM легко обнаруживаются из-за неестественной кинематики. В результате мы создаем эталонный тест гуманизации агентов (AHB) и метрики обнаружения для количественной оценки компромисса между имитируемостью и полезностью. Наконец, мы предлагаем методы — от эвристического добавления шума до основанного на данных поведенческого соответствия, — демонстрируя, что агенты могут достигать высокой имитируемости как теоретически, так и эмпирически без ущерба для производительности. Данная работа смещает парадигму с вопроса о том, *может* ли агент выполнить задачу, на вопрос о том, *как* он ее выполняет в антропоцентричной экосистеме, закладывая основу для бесшовного сосуществования в конкурентных цифровых средах.
English
The rise of autonomous GUI agents has triggered adversarial countermeasures from digital platforms, yet existing research prioritizes utility and robustness over the critical dimension of anti-detection. We argue that for agents to survive in human-centric ecosystems, they must evolve Humanization capabilities. We introduce the ``Turing Test on Screen,'' formally modeling the interaction as a MinMax optimization problem between a detector and an agent aiming to minimize behavioral divergence. We then collect a new high-fidelity dataset of mobile touch dynamics, and conduct our analysis that vanilla LMM-based agents are easily detectable due to unnatural kinematics. Consequently, we establish the Agent Humanization Benchmark (AHB) and detection metrics to quantify the trade-off between imitability and utility. Finally, we propose methods ranging from heuristic noise to data-driven behavioral matching, demonstrating that agents can achieve high imitability theoretically and empirically without sacrificing performance. This work shifts the paradigm from whether an agent can perform a task to how it performs it within a human-centric ecosystem, laying the groundwork for seamless coexistence in adversarial digital environments.