Test di Turing sullo Schermo: Un Benchmark per l'Umanizzazione degli Agenti GUI Mobili

Abstract

L'ascesa degli agenti autonomi per interfacce grafiche ha innescato contromisure difensive da parte delle piattaforme digitali, eppure la ricerca esistente privilegia l'utilità e la robustezza a scapito della dimensione cruciale dell'anti-rilevamento. Sosteniamo che, affinché gli agenti possano sopravvivere in ecosistemi centrati sull'uomo, essi debbano sviluppare capacità di Umanizzazione. Introduciamo il "Test di Turing sullo Schermo", modellando formalmente l'interazione come un problema di ottimizzazione MinMax tra un rilevatore e un agente che mira a minimizzare la divergenza comportamentale. Successivamente, raccogliamo un nuovo dataset ad alta fedeltà sulla dinamica dei tocchi mobili e conduciamo un'analisi che dimostra come gli agenti basati su LMM standard siano facilmente rilevabili a causa di una cinematica innaturale. Di conseguenza, istituiamo il Benchmark per l'Umanizzazione degli Agenti (AHB) e metriche di rilevamento per quantificare il compromesso tra imitabilità e utilità. Infine, proponiamo metodi che spaziano dal rumore euristico alla corrispondenza comportamentale basata sui dati, dimostrando che gli agenti possono raggiungere un'elevata imitabilità, sia teoricamente che empiricamente, senza sacrificare le prestazioni. Questo lavoro sposta il paradigma dal *se* un agente possa svolgere un compito al *come* lo svolge all'interno di un ecosistema centrato sull'uomo, gettando le basi per una coesistenza senza soluzione di continuità in ambienti digitali avversativi.

English

The rise of autonomous GUI agents has triggered adversarial countermeasures from digital platforms, yet existing research prioritizes utility and robustness over the critical dimension of anti-detection. We argue that for agents to survive in human-centric ecosystems, they must evolve Humanization capabilities. We introduce the ``Turing Test on Screen,'' formally modeling the interaction as a MinMax optimization problem between a detector and an agent aiming to minimize behavioral divergence. We then collect a new high-fidelity dataset of mobile touch dynamics, and conduct our analysis that vanilla LMM-based agents are easily detectable due to unnatural kinematics. Consequently, we establish the Agent Humanization Benchmark (AHB) and detection metrics to quantify the trade-off between imitability and utility. Finally, we propose methods ranging from heuristic noise to data-driven behavioral matching, demonstrating that agents can achieve high imitability theoretically and empirically without sacrificing performance. This work shifts the paradigm from whether an agent can perform a task to how it performs it within a human-centric ecosystem, laying the groundwork for seamless coexistence in adversarial digital environments.

Test di Turing sullo Schermo: Un Benchmark per l'Umanizzazione degli Agenti GUI Mobili

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

Abstract

Support