ClawMark: Een Leefwereld-Benchmark voor Multiturn-, Multidag-, Multimodale Collega-Agenten

Samenvatting

Taalmodelagenten worden steeds vaker ingezet als permanente collega's die gebruikers ondersteunen gedurende meerdere werkdagen. Tijdens dergelijke workflows kan de omgeving onafhankelijk van de agent veranderen: nieuwe e-mails arriveren, agenda-afspraken verschuiven, kennisbankrecords worden bijgewerkt, en er duikt bewijs op in afbeeldingen, gescande PDF's, audio, video en spreadsheets. Bestaande benchmarks evalueren deze setting niet adequaat omdat ze typisch binnen een enkele statische episode draaien en grotendeels tekstgericht blijven. Wij introduceren , een benchmark voor collega-agenten, opgebouwd rond meerdaagse taken met meerdere interacties, een stateful gesandboxte service-omgeving waarvan de staat tussen interacties evolueert, en op regels gebaseerde verificatie. De huidige release bevat 100 taken verspreid over 13 professionele scenario's, uitgevoerd tegen vijf stateful gesandboxte services (bestandssysteem, e-mail, agenda, kennisbank, spreadsheet) en beoordeeld door 1537 deterministische Python-checkers op de service-staat na uitvoering; er wordt geen LLM-as-judge gebruikt tijdens de scoring. Wij benchmarken zeven frontier agentsystemen. Het sterkste model behaalt een gewogen score van 75.8, maar de beste strikte Taaksucces is slechts 20.0%, wat aangeeft dat gedeeltelijke vooruitgang gebruikelijk is terwijl volledige end-to-end workflowvoltooiing zeldzaam blijft. Analyse op interactieniveau toont aan dat de prestaties afnemen na de eerste exogene omgevingsupdate, wat aanpassing aan veranderende staat benadrukt als een belangrijke open uitdaging. Wij publiceren de benchmark, het evaluatieraamwerk en de constructiepipeline om reproduceerbare evaluatie van collega-agenten te ondersteunen.

English

Language-model agents are increasingly used as persistent coworkers that assist users across multiple working days. During such workflows, the surrounding environment may change independently of the agent: new emails arrive, calendar entries shift, knowledge-base records are updated, and evidence appears across images, scanned PDFs, audio, video, and spreadsheets. Existing benchmarks do not adequately evaluate this setting because they typically run within a single static episode and remain largely text-centric. We introduce , a benchmark for coworker agents built around multi-turn multi-day tasks, a stateful sandboxed service environment whose state evolves between turns, and rule-based verification. The current release contains 100 tasks across 13 professional scenarios, executed against five stateful sandboxed services (filesystem, email, calendar, knowledge base, spreadsheet) and scored by 1537 deterministic Python checkers over post-execution service state; no LLM-as-judge is invoked during scoring. We benchmark seven frontier agent systems. The strongest model reaches 75.8 weighted score, but the best strict Task Success is only 20.0\%, indicating that partial progress is common while complete end-to-end workflow completion remains rare. Turn-level analysis shows that performance drops after the first exogenous environment update, highlighting adaptation to changing state as a key open challenge. We release the benchmark, evaluation harness, and construction pipeline to support reproducible coworker-agent evaluation.

ClawMark: Een Leefwereld-Benchmark voor Multiturn-, Multidag-, Multimodale Collega-Agenten

ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

Samenvatting

Support