Test de Turing à l'Écran : Un Référentiel pour l'Humanisation des Agents d'Interface Graphique Mobile

Résumé

L'essor des agents autonomes d'interface graphique a déclenché des contre-mesures adverses de la part des plateformes numériques, mais les recherches existantes privilégient l'utilité et la robustesse au détriment de la dimension cruciale de l'anti-détection. Nous soutenons que pour survivre dans des écosystèmes centrés sur l'humain, les agents doivent développer des capacités d'Humanisation. Nous introduisons le « Test de Turing à l'Écran », modélisant formellement l'interaction comme un problème d'optimisation MinMax entre un détecteur et un agent visant à minimiser la divergence comportementale. Nous collectons ensuite un nouveau jeu de données haute fidélité sur la dynamique des touches mobiles, et menons une analyse montrant que les agents LMM standard sont facilement détectables en raison de leur cinématique non naturelle. Par conséquent, nous établissons le Benchmark d'Humanisation des Agents (AHB) et des métriques de détection pour quantifier le compromis entre l'imitabilité et l'utilité. Enfin, nous proposons des méthodes allant du bruit heuristique à l'appariement comportemental basé sur les données, démontrant que les agents peuvent atteindre une haute imitabilité théoriquement et empiriquement sans sacrifier les performances. Ce travail change le paradigme de la capacité d'un agent à exécuter une tâche vers la manière dont il l'exécute au sein d'un écosystème centré sur l'humain, jetant les bases d'une coexistence harmonieuse dans des environnements numériques adverses.

English

The rise of autonomous GUI agents has triggered adversarial countermeasures from digital platforms, yet existing research prioritizes utility and robustness over the critical dimension of anti-detection. We argue that for agents to survive in human-centric ecosystems, they must evolve Humanization capabilities. We introduce the ``Turing Test on Screen,'' formally modeling the interaction as a MinMax optimization problem between a detector and an agent aiming to minimize behavioral divergence. We then collect a new high-fidelity dataset of mobile touch dynamics, and conduct our analysis that vanilla LMM-based agents are easily detectable due to unnatural kinematics. Consequently, we establish the Agent Humanization Benchmark (AHB) and detection metrics to quantify the trade-off between imitability and utility. Finally, we propose methods ranging from heuristic noise to data-driven behavioral matching, demonstrating that agents can achieve high imitability theoretically and empirically without sacrificing performance. This work shifts the paradigm from whether an agent can perform a task to how it performs it within a human-centric ecosystem, laying the groundwork for seamless coexistence in adversarial digital environments.

Test de Turing à l'Écran : Un Référentiel pour l'Humanisation des Agents d'Interface Graphique Mobile

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

Résumé

Support