ChatPaper.aiChatPaper

EcomBench: Op weg naar een holistische evaluatie van foundation agents in e-commerce

EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce

December 9, 2025
Auteurs: Rui Min, Zile Qiao, Ze Xu, Jiawen Zhai, Wenyu Gao, Xuanzhong Chen, Haozhen Sun, Zhen Zhang, Xinyu Wang, Hong Zhou, Wenbiao Yin, Xuan Zhou, Yong Jiang, Haicheng Liu, Liang Ding, Ling Zou, Yi R., Fung, Yalong Li, Pengjun Xie
cs.AI

Samenvatting

Foundation agents hebben een snelle vooruitgang geboekt in hun vermogen om te redeneren en te interageren met reële omgevingen, waardoor de evaluatie van hun kerncapaciteiten steeds belangrijker wordt. Hoewel er veel benchmarks zijn ontwikkeld om de prestaties van agents te beoordelen, richten de meeste zich op academische settings of kunstmatig ontworpen scenario's, waarbij de uitdagingen die zich voordoen in echte toepassingen over het hoofd worden gezien. Om dit probleem aan te pakken, richten wij ons op een zeer praktische real-world setting: het e-commercedomein. Dit domein omvat een groot volume aan diverse gebruikersinteracties, dynamische marktomstandigheden en taken die direct verbonden zijn aan echte besluitvormingsprocessen. Daartoe introduceren wij EcomBench, een holistische E-commerce Benchmark die is ontworpen om de prestaties van agents in realistische e-commerceomgevingen te evalueren. EcomBench is opgebouwd vanuit authentieke gebruikersvragen ingebed in toonaangevende wereldwijde e-commerce-ecosystemen en is zorgvuldig samengesteld en geannoteerd door menselijke experts om duidelijkheid, nauwkeurigheid en domeinrelevantie te garanderen. Het bestrijkt meerdere taakcategorieën binnen e-commercescenario's en definieert drie moeilijkheidsgraden die agents evalueren op cruciale capaciteiten zoals diepe informatie-extractie, meerstapsredenering en kruisbronkennisintegratie. Door de evaluatie te verankeren in reële e-commercecontexten, biedt EcomBench een rigoureus en dynamisch testplatform voor het meten van de praktische capaciteiten van agents in moderne e-commerce.
English
Foundation agents have rapidly advanced in their ability to reason and interact with real environments, making the evaluation of their core capabilities increasingly important. While many benchmarks have been developed to assess agent performance, most concentrate on academic settings or artificially designed scenarios while overlooking the challenges that arise in real applications. To address this issue, we focus on a highly practical real-world setting, the e-commerce domain, which involves a large volume of diverse user interactions, dynamic market conditions, and tasks directly tied to real decision-making processes. To this end, we introduce EcomBench, a holistic E-commerce Benchmark designed to evaluate agent performance in realistic e-commerce environments. EcomBench is built from genuine user demands embedded in leading global e-commerce ecosystems and is carefully curated and annotated through human experts to ensure clarity, accuracy, and domain relevance. It covers multiple task categories within e-commerce scenarios and defines three difficulty levels that evaluate agents on key capabilities such as deep information retrieval, multi-step reasoning, and cross-source knowledge integration. By grounding evaluation in real e-commerce contexts, EcomBench provides a rigorous and dynamic testbed for measuring the practical capabilities of agents in modern e-commerce.
PDF21December 11, 2025