Optimización a Nivel de Pasos para Agentes de Uso Eficiente de Computadoras
Step-level Optimization for Efficient Computer-use Agents
April 29, 2026
Autores: Jinbiao Wei, Kangqi Ni, Yilun Zhao, Guo Gan, Arman Cohan
cs.AI
Resumen
Los agentes de uso informático ofrecen una vía prometedora hacia la automatización general del software porque pueden interactuar directamente con interfaces gráficas de usuario arbitrarias, en lugar de depender de integraciones rígidas específicas de cada aplicación. A pesar de los avances recientes en el rendimiento de los benchmarks, los agentes de uso informático potentes siguen siendo costosos y lentos en la práctica, ya que la mayoría de los sistemas invocan modelos multimodales grandes en casi cada paso de interacción. Sostenemos que esta asignación uniforme de capacidad de cómputo es fundamentalmente ineficiente para tareas de interfaz gráfica de larga duración. Dichas trayectorias son altamente heterogéneas: muchos pasos son rutinarios y pueden manejarse de forma confiable por políticas más pequeñas y económicas, mientras que los errores tienden a concentrarse en un número relativamente pequeño de momentos de alto riesgo. En los benchmarks de uso informático, estos fallos adoptan repetidamente dos formas: bloqueos de progreso, donde el agente entra en bucles, repite acciones inefectivas o no logra avanzar significativamente, y deriva semántica silenciosa, donde el agente continúa realizando acciones localmente plausibles después de haberse desviado del objetivo real del usuario. Para abordar esta ineficiencia, proponemos una cascada a nivel de paso, impulsada por eventos, para agentes de uso informático que ejecuta una política pequeña por defecto y escala a un modelo más potente solo cuando monitores ligeros aprendidos detectan un riesgo elevado. Nuestro marco combina dos señales complementarias: un Monitor de Bloqueo que detecta progreso degradado a partir del historial reciente de razonamiento-acción y activa la recuperación, y un Monitor de Hitos que identifica puntos de control semánticamente significativos donde la verificación dispersa es más informativa para capturar deriva. Este diseño convierte la inferencia constante de modelos de vanguardia en una asignación adaptativa de cómputo bajo demanda durante el curso de una interacción en evolución. El marco es modular y orientado a la implementación: puede superponerse a agentes de uso informático existentes sin cambiar la arquitectura subyacente del agente ni reentrenar el modelo grande.
English
Computer-use agents provide a promising path toward general software automation because they can interact directly with arbitrary graphical user interfaces instead of relying on brittle, application-specific integrations. Despite recent advances in benchmark performance, strong computer-use agents remain expensive and slow in practice, since most systems invoke large multimodal models at nearly every interaction step. We argue that this uniform allocation of compute is fundamentally inefficient for long-horizon GUI tasks. Such trajectories are highly heterogeneous: many steps are routine and can be handled reliably by smaller, cheaper policies, while errors tend to concentrate at a relatively small number of high-risk moments. Across computer-use benchmarks, these failures repeatedly take two forms: progress stalls, where the agent loops, repeats ineffective actions, or fails to make meaningful progress, and silent semantic drift, where the agent continues taking locally plausible actions after already deviating from the user's true goal. To address this inefficiency, we propose an event-driven, step-level cascade for computer-use agents that runs a small policy by default and escalates to a stronger model only when lightweight learned monitors detect elevated risk. Our framework combines two complementary signals: a Stuck Monitor that detects degraded progress from recent reasoning-action history and triggers recovery, and a Milestone Monitor that identifies semantically meaningful checkpoints where sparse verification is most informative for catching drift. This design turns always-on frontier-model inference into adaptive, on-demand compute allocation over the course of an evolving interaction. The framework is modular and deployment-oriented: it can be layered on top of existing computer-use agents without changing the underlying agent architecture or retraining the large model.