Test de Turing en Pantalla: Un Punto de Referencia para la Humanización de Agentes de Interfaz Gráfica Móvil

Resumen

El auge de los agentes autónomos de interfaz gráfica de usuario (GUI) ha desencadenado contramedidas adversarias por parte de las plataformas digitales; sin embargo, la investigación existente prioriza la utilidad y la robustez por encima de la dimensión crítica de la anti-detección. Sostenemos que, para que los agentes sobrevivan en ecosistemas centrados en el ser humano, deben desarrollar capacidades de Humanización. Introducimos la "Prueba de Turing en Pantalla", modelando formalmente la interacción como un problema de optimización MinMax entre un detector y un agente que busca minimizar la divergencia conductual. Posteriormente, recopilamos un nuevo conjunto de datos de alta fidelidad sobre la dinámica de pulsaciones táctiles en dispositivos móviles y realizamos un análisis que demuestra que los agentes básicos basados en Modelos de Lenguaje Multimodal (LMM) son fácilmente detectables debido a su cinemática artificial. En consecuencia, establecemos el Benchmark de Humanización de Agentes (AHB) y métricas de detección para cuantificar la compensación entre imitabilidad y utilidad. Finalmente, proponemos métodos que van desde la adición de ruido heurístico hasta la adaptación conductual basada en datos, demostrando que los agentes pueden alcanzar una alta imitabilidad, tanto teórica como empíricamente, sin sacrificar su rendimiento. Este trabajo cambia el paradigma de si un agente puede realizar una tarea a cómo la realiza dentro de un ecosistema centrado en el ser humano, sentando las bases para una coexistencia fluida en entornos digitales adversarios.

English

The rise of autonomous GUI agents has triggered adversarial countermeasures from digital platforms, yet existing research prioritizes utility and robustness over the critical dimension of anti-detection. We argue that for agents to survive in human-centric ecosystems, they must evolve Humanization capabilities. We introduce the ``Turing Test on Screen,'' formally modeling the interaction as a MinMax optimization problem between a detector and an agent aiming to minimize behavioral divergence. We then collect a new high-fidelity dataset of mobile touch dynamics, and conduct our analysis that vanilla LMM-based agents are easily detectable due to unnatural kinematics. Consequently, we establish the Agent Humanization Benchmark (AHB) and detection metrics to quantify the trade-off between imitability and utility. Finally, we propose methods ranging from heuristic noise to data-driven behavioral matching, demonstrating that agents can achieve high imitability theoretically and empirically without sacrificing performance. This work shifts the paradigm from whether an agent can perform a task to how it performs it within a human-centric ecosystem, laying the groundwork for seamless coexistence in adversarial digital environments.

Test de Turing en Pantalla: Un Punto de Referencia para la Humanización de Agentes de Interfaz Gráfica Móvil

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

Resumen

Support