Teste de Turing na Tela: Um Benchmark para a Humanização de Agentes de Interface Gráfica Móvel

Resumo

O surgimento de agentes autónomos de interface gráfica (GUI) desencadeou contramedidas adversárias por parte das plataformas digitais. No entanto, a investigação existente prioriza a utilidade e a robustez em detrimento da dimensão crítica da anti-detecção. Argumentamos que, para os agentes sobreviverem em ecossistemas centrados no ser humano, devem desenvolver capacidades de Humanização. Introduzimos o "Teste de Turing no Ecrã", modelando formalmente a interação como um problema de otimização MinMax entre um detetor e um agente que visa minimizar a divergência comportamental. De seguida, recolhemos um novo conjunto de dados de alta fidelidade sobre a dinâmica de toque em dispositivos móveis e conduzimos uma análise que demonstra que agentes baseados em LMM básicos são facilmente detetáveis devido à sua cinemática artificial. Consequentemente, estabelecemos o *Agent Humanization Benchmark* (AHB) e métricas de deteção para quantificar o equilíbrio entre imitabilidade e utilidade. Por fim, propomos métodos que vão desde a adição de ruído heurístico até à correspondência comportamental baseada em dados, demonstrando que os agentes podem alcançar alta imitabilidade, teórica e empiricamente, sem sacrificar o desempenho. Este trabalho muda o paradigma de *se um agente pode* realizar uma tarefa para *como a realiza* dentro de um ecossistema centrado no ser humano, lançando as bases para uma coexistência harmoniosa em ambientes digitais adversários.

English

The rise of autonomous GUI agents has triggered adversarial countermeasures from digital platforms, yet existing research prioritizes utility and robustness over the critical dimension of anti-detection. We argue that for agents to survive in human-centric ecosystems, they must evolve Humanization capabilities. We introduce the ``Turing Test on Screen,'' formally modeling the interaction as a MinMax optimization problem between a detector and an agent aiming to minimize behavioral divergence. We then collect a new high-fidelity dataset of mobile touch dynamics, and conduct our analysis that vanilla LMM-based agents are easily detectable due to unnatural kinematics. Consequently, we establish the Agent Humanization Benchmark (AHB) and detection metrics to quantify the trade-off between imitability and utility. Finally, we propose methods ranging from heuristic noise to data-driven behavioral matching, demonstrating that agents can achieve high imitability theoretically and empirically without sacrificing performance. This work shifts the paradigm from whether an agent can perform a task to how it performs it within a human-centric ecosystem, laying the groundwork for seamless coexistence in adversarial digital environments.

Teste de Turing na Tela: Um Benchmark para a Humanização de Agentes de Interface Gráfica Móvel

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

Resumo

Support