ChatPaper.aiChatPaper

EcomBench: Auf dem Weg zu einer ganzheitlichen Bewertung von Foundation Agents im E-Commerce

EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce

December 9, 2025
papers.authors: Rui Min, Zile Qiao, Ze Xu, Jiawen Zhai, Wenyu Gao, Xuanzhong Chen, Haozhen Sun, Zhen Zhang, Xinyu Wang, Hong Zhou, Wenbiao Yin, Xuan Zhou, Yong Jiang, Haicheng Liu, Liang Ding, Ling Zou, Yi R., Fung, Yalong Li, Pengjun Xie
cs.AI

papers.abstract

Foundation Agents haben rasante Fortschritte in ihrer Fähigkeit zur logischen Schlussfolgerung und Interaktion mit realen Umgebungen gemacht, was die Bewertung ihrer Kernkompetenzen zunehmend wichtiger macht. Zwar wurden zahlreiche Benchmarks zur Bewertung der Agentenleistung entwickelt, doch konzentrieren sich die meisten auf akademische Settings oder künstlich gestaltete Szenarien und vernachlässigen die Herausforderungen realer Anwendungen. Um dieses Problem zu adressieren, konzentrieren wir uns auf einen hochpraktischen, realen Anwendungskontext: die E-Commerce-Domäne. Diese umfasst eine große Menge diverser Nutzerinteraktionen, dynamische Marktbedingungen und Aufgaben, die direkt mit echten Entscheidungsprozessen verbunden sind. Zu diesem Zweck stellen wir EcomBench vor, einen ganzheitlichen E-Commerce-Benchmark, der zur Bewertung der Agentenleistung in realistischen E-Commerce-Umgebungen entwickelt wurde. EcomBench basiert auf echten Nutzeranforderungen, die in führenden globalen E-Commerce-Ökosystemen eingebettet sind, und wird von menschlichen Experten sorgfältig kuratiert und annotiert, um Klarheit, Genauigkeit und Domänenrelevanz zu gewährleisten. Er deckt mehrere Aufgabenkategorien innerhalb von E-Commerce-Szenarien ab und definiert drei Schwierigkeitsgrade, die Agenten anhand zentraler Fähigkeiten wie tiefgehende Informationsbeschaffung, mehrstufiges Schlussfolgern und übergreifende Wissensintegration bewerten. Durch die Verankerung der Evaluation in realen E-Commerce-Kontexten bietet EcomBench eine rigorose und dynamische Testumgebung zur Messung der praktischen Fähigkeiten von Agenten im modernen E-Commerce.
English
Foundation agents have rapidly advanced in their ability to reason and interact with real environments, making the evaluation of their core capabilities increasingly important. While many benchmarks have been developed to assess agent performance, most concentrate on academic settings or artificially designed scenarios while overlooking the challenges that arise in real applications. To address this issue, we focus on a highly practical real-world setting, the e-commerce domain, which involves a large volume of diverse user interactions, dynamic market conditions, and tasks directly tied to real decision-making processes. To this end, we introduce EcomBench, a holistic E-commerce Benchmark designed to evaluate agent performance in realistic e-commerce environments. EcomBench is built from genuine user demands embedded in leading global e-commerce ecosystems and is carefully curated and annotated through human experts to ensure clarity, accuracy, and domain relevance. It covers multiple task categories within e-commerce scenarios and defines three difficulty levels that evaluate agents on key capabilities such as deep information retrieval, multi-step reasoning, and cross-source knowledge integration. By grounding evaluation in real e-commerce contexts, EcomBench provides a rigorous and dynamic testbed for measuring the practical capabilities of agents in modern e-commerce.
PDF21December 11, 2025