GUI vs. CLI: Uitvoeringsknelpunten in Schermgebaseerde en Vaardigheidsgemedieerde Computergebruik-Agenten

Samenvatting

Computergebruikagenten kunnen softwaretaken uitvoeren via zowel grafische interfaces als programmatische opdrachtinterfaces, maar bestaande evaluaties vertroebelen de interactiemodaliteit met verschillen in taken, begintoestanden, verificatoren en toegestane acties. We introduceren een gematchte benchmark op uitvoeringsniveau van 440 desktoptaken verdeeld over 18 toepassingen en 12 workflowcategorieën, waarbij alleen-scherm GUI-agenten en vaardigheidsbemiddelde CLI-agenten identieke doelen, toestanden en eindtoestandsverificatoren krijgen, terwijl ze beperkt zijn tot modaliteitseigen acties. In deze gecontroleerde setting behaalt de sterkste GUI-agent een volledig slagingspercentage van 59,1%, beter dan de sterkste CLI-agent met oorspronkelijke vaardigheden op 48,2%; echter, verificator-geleide vaardigheidsaugmentatie verhoogt het CLI-succes naar 69,3%, wat aantoont dat een groot deel van het CLI-tekort het gevolg is van onvolledige vaardigheidsdekking in plaats van alleen modelcapaciteit. Deze resultaten suggereren dat GUI en CLI verschillende uitvoeringsknelpunten blootleggen: GUI-agenten worden beperkt door betrouwbare gegronde interactie over workflows met een lange horizon, terwijl CLI-agenten worden beperkt door de dekking en schaalbaarheid van hun vaardigheidsinterfaces.

English

Computer-use agents can execute software tasks through either graphical interfaces or programmatic command interfaces, but existing evaluations confound interaction modality with differences in tasks, initial states, verifiers, and permitted actions. We introduce a matched execution-layer benchmark of 440 desktop tasks across 18 applications and 12 workflow categories, where screen-only GUI agents and skill-mediated CLI agents receive identical goals, states, and final-state verifiers while being restricted to modality-native actions. In this controlled setting, the strongest GUI agent reaches a 59.1% full pass rate, outperforming the strongest original-skill CLI agent at 48.2%; however, verifier-guided skill augmentation raises CLI success to 69.3%, showing that much of the CLI deficit comes from incomplete skill coverage rather than model capability alone. These results suggest that GUI and CLI expose different execution bottlenecks: GUI agents are limited by reliable grounded interaction over long-horizon workflows, whereas CLI agents are limited by the coverage and scalability of their skill interfaces.