ChatPaper.aiChatPaper

Schrittweise Optimierung für effiziente Computer-Nutzungs-Agenten

Step-level Optimization for Efficient Computer-use Agents

April 29, 2026
Autoren: Jinbiao Wei, Kangqi Ni, Yilun Zhao, Guo Gan, Arman Cohan
cs.AI

Zusammenfassung

Computernutzungs-Agenten bieten einen vielversprechenden Weg zur allgemeinen Softwareautomatisierung, da sie direkt mit beliebigen grafischen Benutzeroberflächen interagieren können, anstatt auf anfällige, anwendungsspezifische Integrationen angewiesen zu sein. Trotz jüngster Fortschritte bei Benchmark-Leistungen bleiben leistungsstarke Computernutzungs-Agenten in der Praxis teuer und langsam, da die meisten Systeme bei nahezu jedem Interaktionsschritt große multimodale Modelle aufrufen. Wir argumentieren, dass diese gleichmäßige Zuteilung von Rechenleistung für langfristige GUI-Aufgaben grundlegend ineffizient ist. Solche Abläufe sind hochgradig heterogen: Viele Schritte sind Routine und können zuverlässig von kleineren, kostengünstigeren Policies bewältigt werden, während sich Fehler tendenziell auf eine relativ kleine Anzahl von Hochrisiko-Momenten konzentrieren. In Computernutzungs-Benchmarks treten diese Fehler wiederholt in zwei Formen auf: Fortschrittsstillstände, bei denen der Agent in Schleifen verfällt, unwirksame Aktionen wiederholt oder keine sinnvollen Fortschritte erzielt, und stille semantische Drifts, bei denen der Agent nach Abweichung vom eigentlichen Benutzerziel lokal plausible Aktionen fortsetzt. Um diese Ineffizienz zu adressieren, schlagen wir eine ereignisgesteuerte, schrittweise Eskalation für Computernutzungs-Agenten vor, die standardmäßig eine kleine Policy ausführt und nur dann zu einem stärkeren Modell eskaliert, wenn leichtgewichtige gelernte Monitorings ein erhöhtes Risiko erkennen. Unser Framework kombiniert zwei komplementäre Signale: einen Stuck-Monitor, der beeinträchtigte Fortschritte aus dem recenten Reasoning-Aktions-Verlauf erkennt und Wiederherstellung auslöst, und einen Milestone-Monitor, der semantisch bedeutsame Meilensteine identifiziert, an denen sparse Verifikation am aussagekräftigsten für das Erkennen von Drifts ist. Dieser Ansatz wandelt ständig aktive Frontier-Modell-Inferenz in adaptive, bedarfsgesteuerte Rechenzuteilung während einer sich entwickelnden Interaktion um. Das Framework ist modular und einsatzorientiert: Es kann über bestehenden Computernutzungs-Agenten eingesetzt werden, ohne die zugrundeliegende Agenten-Architektur zu ändern oder das große Modell neu zu trainieren.
English
Computer-use agents provide a promising path toward general software automation because they can interact directly with arbitrary graphical user interfaces instead of relying on brittle, application-specific integrations. Despite recent advances in benchmark performance, strong computer-use agents remain expensive and slow in practice, since most systems invoke large multimodal models at nearly every interaction step. We argue that this uniform allocation of compute is fundamentally inefficient for long-horizon GUI tasks. Such trajectories are highly heterogeneous: many steps are routine and can be handled reliably by smaller, cheaper policies, while errors tend to concentrate at a relatively small number of high-risk moments. Across computer-use benchmarks, these failures repeatedly take two forms: progress stalls, where the agent loops, repeats ineffective actions, or fails to make meaningful progress, and silent semantic drift, where the agent continues taking locally plausible actions after already deviating from the user's true goal. To address this inefficiency, we propose an event-driven, step-level cascade for computer-use agents that runs a small policy by default and escalates to a stronger model only when lightweight learned monitors detect elevated risk. Our framework combines two complementary signals: a Stuck Monitor that detects degraded progress from recent reasoning-action history and triggers recovery, and a Milestone Monitor that identifies semantically meaningful checkpoints where sparse verification is most informative for catching drift. This design turns always-on frontier-model inference into adaptive, on-demand compute allocation over the course of an evolving interaction. The framework is modular and deployment-oriented: it can be layered on top of existing computer-use agents without changing the underlying agent architecture or retraining the large model.
PDF11May 2, 2026