Turing-Test auf dem Bildschirm: Ein Maßstab für die Vermenschlichung mobiler GUI-Agenten

Zusammenfassung

Der Aufstieg autonomer GUI-Agents hat Gegenmaßnahmen digitaler Plattformen ausgelöst, doch bestehende Forschung priorisiert Nutzen und Robustheit über die kritische Dimension der Anti-Erkennung. Wir argumentieren, dass Agents in menschenzentrierten Ökosystemen Humanisierungsfähigkeiten entwickeln müssen. Wir führen den „Turing-Test auf dem Bildschirm“ ein, der die Interaktion formal als MinMax-Optimierungsproblem zwischen einem Detektor und einem Agenten modelliert, der behaviorale Divergenz minimieren will. Anschließend erfassen wir einen neuen hochauflösenden Datensatz mobiler Touch-Dynamiken und zeigen, dass naive LMM-basierte Agents aufgrund unnatürlicher Kinematik leicht erkennbar sind. Darauf aufbauend etablieren wir den Agent Humanization Benchmark (AHB) mit Detektionsmetriken, um den Zielkonflikt zwischen Imitationsfähigkeit und Nutzen zu quantifizieren. Abschließend schlagen wir Methoden vor – von heuristischem Rauschen bis hin zu datengestütztem Behavioral Matching – und demonstrieren, dass Agents theoretisch und empirisch hohe Imitationsfähigkeit ohne Leistungseinbußen erreichen können. Diese Arbeit verlagert das Paradigma davon, ob ein Agent eine Aufgabe ausführen kann, hin dazu, wie er sie in einem menschenzentrierten Ökosystem ausführt, und legt die Grundlagen für nahtlose Koexistenz in adversen digitalen Umgebungen.

English

The rise of autonomous GUI agents has triggered adversarial countermeasures from digital platforms, yet existing research prioritizes utility and robustness over the critical dimension of anti-detection. We argue that for agents to survive in human-centric ecosystems, they must evolve Humanization capabilities. We introduce the ``Turing Test on Screen,'' formally modeling the interaction as a MinMax optimization problem between a detector and an agent aiming to minimize behavioral divergence. We then collect a new high-fidelity dataset of mobile touch dynamics, and conduct our analysis that vanilla LMM-based agents are easily detectable due to unnatural kinematics. Consequently, we establish the Agent Humanization Benchmark (AHB) and detection metrics to quantify the trade-off between imitability and utility. Finally, we propose methods ranging from heuristic noise to data-driven behavioral matching, demonstrating that agents can achieve high imitability theoretically and empirically without sacrificing performance. This work shifts the paradigm from whether an agent can perform a task to how it performs it within a human-centric ecosystem, laying the groundwork for seamless coexistence in adversarial digital environments.

Turing-Test auf dem Bildschirm: Ein Maßstab für die Vermenschlichung mobiler GUI-Agenten

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

Zusammenfassung

Support