Turingtest op Scherm: Een Maatstaf voor de Vermenselijking van Mobiele GUI-agenten
Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization
February 24, 2026
Auteurs: Jiachen Zhu, Lingyu Yang, Rong Shan, Congmin Zheng, Zeyu Zheng, Weiwen Liu, Yong Yu, Weinan Zhang, Jianghao Lin
cs.AI
Samenvatting
De opkomst van autonome GUI-agenten heeft geleid tot tegenmaatregelen van digitale platformen, maar bestaand onderzoek richt zich vooral op functionaliteit en robuustheid, ten koste van de cruciale dimensie van anti-detectie. Wij beargumenteren dat agenten, om te kunnen overleven in mensgerichte ecosystemen, zogenoemde 'vermenskelijkingscapaciteiten' (Humanization) moeten ontwikkelen. Wij introduceren de "Turingtest op het Scherm", waarbij we de interactie formeel modelleren als een MinMax-optimalisatieprobleem tussen een detector en een agent die gedragsdivergentie wil minimaliseren. Vervolgens verzamelen we een nieuwe dataset met hoge resolutie van mobiele touch-dynamiek en voeren we een analyse uit waaruit blijkt dat standaard op LMM gebaseerde agenten eenvoudig detecteerbaar zijn door onnatuurlijke kinematica. Als gevolg hiervan stellen we de Agent Humanization Benchmark (AHB) en detectiemetrieken op om de wisselwerking tussen imitatievermogen en functionaliteit te kwantificeren. Ten slotte stellen we methoden voor, variërend van heuristische ruis tot data-gedreven gedragsmatchen, en tonen we aan dat agenten zowel theoretisch als empirisch een hoog imitatievermogen kunnen bereiken zonder in te leveren op prestaties. Dit werk verschuift het paradigma van de vraag óf een agent een taak kan uitvoeren naar de vraag hóé hij deze uitvoert binnen een mensgericht ecosysteem, en legt daarmee de basis voor naadloze co-existentie in vijandige digitale omgevingen.
English
The rise of autonomous GUI agents has triggered adversarial countermeasures from digital platforms, yet existing research prioritizes utility and robustness over the critical dimension of anti-detection. We argue that for agents to survive in human-centric ecosystems, they must evolve Humanization capabilities. We introduce the ``Turing Test on Screen,'' formally modeling the interaction as a MinMax optimization problem between a detector and an agent aiming to minimize behavioral divergence. We then collect a new high-fidelity dataset of mobile touch dynamics, and conduct our analysis that vanilla LMM-based agents are easily detectable due to unnatural kinematics. Consequently, we establish the Agent Humanization Benchmark (AHB) and detection metrics to quantify the trade-off between imitability and utility. Finally, we propose methods ranging from heuristic noise to data-driven behavioral matching, demonstrating that agents can achieve high imitability theoretically and empirically without sacrificing performance. This work shifts the paradigm from whether an agent can perform a task to how it performs it within a human-centric ecosystem, laying the groundwork for seamless coexistence in adversarial digital environments.