ClawMark: Een Leefwereld-Benchmark voor Multiturn-, Multidag-, Multimodale Collega-Agenten
ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents
April 26, 2026
Auteurs: Fanqing Meng, Lingxiao Du, Zijian Wu, Guanzheng Chen, Xiangyan Liu, Jiaqi Liao, Chonghe Jiang, Zhenglin Wan, Jiawei Gu, Pengfei Zhou, Rui Huang, Ziqi Zhao, Shengyuan Ding, Ailing Yu, Bo Peng, Bowei Xia, Hao Sun, Haotian Liang, Ji Xie, Jiajun Chen, Jiajun Song, Liu Yang, Ming Xu, Qionglin Qiu, Runhao Fu, Shengfang Zhai, Shijian Wang, Tengfei Ma, Tianyi Wu, Weiyang Jin, Yan Wang, Yang Dai, Yao Lai, Youwei Shu, Yue Liu, Yunzhuo Hao, Yuwei Niu, Jinkai Huang, Jiayuan Zhuo, Zhennan Shen, Linyu Wu, Cihang Xie, Yuyin Zhou, Jiaheng Zhang, Zeyu Zheng, Mengkang Hu, Michael Qizhe Shieh
cs.AI
Samenvatting
Taalmodelagenten worden steeds vaker ingezet als permanente collega's die gebruikers ondersteunen gedurende meerdere werkdagen. Tijdens dergelijke workflows kan de omgeving onafhankelijk van de agent veranderen: nieuwe e-mails arriveren, agenda-afspraken verschuiven, kennisbankrecords worden bijgewerkt, en er duikt bewijs op in afbeeldingen, gescande PDF's, audio, video en spreadsheets. Bestaande benchmarks evalueren deze setting niet adequaat omdat ze typisch binnen een enkele statische episode draaien en grotendeels tekstgericht blijven. Wij introduceren , een benchmark voor collega-agenten, opgebouwd rond meerdaagse taken met meerdere interacties, een stateful gesandboxte service-omgeving waarvan de staat tussen interacties evolueert, en op regels gebaseerde verificatie. De huidige release bevat 100 taken verspreid over 13 professionele scenario's, uitgevoerd tegen vijf stateful gesandboxte services (bestandssysteem, e-mail, agenda, kennisbank, spreadsheet) en beoordeeld door 1537 deterministische Python-checkers op de service-staat na uitvoering; er wordt geen LLM-as-judge gebruikt tijdens de scoring. Wij benchmarken zeven frontier agentsystemen. Het sterkste model behaalt een gewogen score van 75.8, maar de beste strikte Taaksucces is slechts 20.0%, wat aangeeft dat gedeeltelijke vooruitgang gebruikelijk is terwijl volledige end-to-end workflowvoltooiing zeldzaam blijft. Analyse op interactieniveau toont aan dat de prestaties afnemen na de eerste exogene omgevingsupdate, wat aanpassing aan veranderende staat benadrukt als een belangrijke open uitdaging. Wij publiceren de benchmark, het evaluatieraamwerk en de constructiepipeline om reproduceerbare evaluatie van collega-agenten te ondersteunen.
English
Language-model agents are increasingly used as persistent coworkers that assist users across multiple working days. During such workflows, the surrounding environment may change independently of the agent: new emails arrive, calendar entries shift, knowledge-base records are updated, and evidence appears across images, scanned PDFs, audio, video, and spreadsheets. Existing benchmarks do not adequately evaluate this setting because they typically run within a single static episode and remain largely text-centric. We introduce , a benchmark for coworker agents built around multi-turn multi-day tasks, a stateful sandboxed service environment whose state evolves between turns, and rule-based verification. The current release contains 100 tasks across 13 professional scenarios, executed against five stateful sandboxed services (filesystem, email, calendar, knowledge base, spreadsheet) and scored by 1537 deterministic Python checkers over post-execution service state; no LLM-as-judge is invoked during scoring. We benchmark seven frontier agent systems. The strongest model reaches 75.8 weighted score, but the best strict Task Success is only 20.0\%, indicating that partial progress is common while complete end-to-end workflow completion remains rare. Turn-level analysis shows that performance drops after the first exogenous environment update, highlighting adaptation to changing state as a key open challenge. We release the benchmark, evaluation harness, and construction pipeline to support reproducible coworker-agent evaluation.