EcomBench : Vers une évaluation holistique des agents fondationnels dans l'e-commerce
EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce
December 9, 2025
papers.authors: Rui Min, Zile Qiao, Ze Xu, Jiawen Zhai, Wenyu Gao, Xuanzhong Chen, Haozhen Sun, Zhen Zhang, Xinyu Wang, Hong Zhou, Wenbiao Yin, Xuan Zhou, Yong Jiang, Haicheng Liu, Liang Ding, Ling Zou, Yi R., Fung, Yalong Li, Pengjun Xie
cs.AI
papers.abstract
Les agents fondationnels ont rapidement progressé dans leur capacité à raisonner et à interagir avec des environnements réels, rendant l'évaluation de leurs compétences fondamentales de plus en plus cruciale. Bien que de nombreux benchmarks aient été développés pour évaluer les performances des agents, la plupart se concentrent sur des cadres académiques ou des scénarios artificiellement conçus, négligeant les défis rencontrés dans les applications réelles. Pour résoudre ce problème, nous nous intéressons à un cadre pratique très concret : le domaine du commerce électronique, qui implique un volume important d'interactions utilisateur diversifiées, des conditions de marché dynamiques et des tâches directement liées à de réels processus décisionnels. À cette fin, nous présentons EcomBench, un benchmark holistique conçu pour évaluer les performances des agents dans des environnements de commerce électronique réalistes. EcomBench est construit à partir de demandes utilisateur authentiques intégrées aux écosystèmes mondiaux leaders du e-commerce, et soigneusement organisé et annoté par des experts humains pour garantir clarté, précision et pertinence sectorielle. Il couvre plusieurs catégories de tâches dans des scénarios de e-commerce et définit trois niveaux de difficulté évaluant les agents sur des capacités clés telles que la recherche approfondie d'informations, le raisonnement multi-étape et l'intégration de connaissances multisources. En ancrant l'évaluation dans des contextes réels de e-commerce, EcomBench offre un banc d'essai rigoureux et dynamique pour mesurer les capacités pratiques des agents dans le commerce électronique moderne.
English
Foundation agents have rapidly advanced in their ability to reason and interact with real environments, making the evaluation of their core capabilities increasingly important. While many benchmarks have been developed to assess agent performance, most concentrate on academic settings or artificially designed scenarios while overlooking the challenges that arise in real applications. To address this issue, we focus on a highly practical real-world setting, the e-commerce domain, which involves a large volume of diverse user interactions, dynamic market conditions, and tasks directly tied to real decision-making processes. To this end, we introduce EcomBench, a holistic E-commerce Benchmark designed to evaluate agent performance in realistic e-commerce environments. EcomBench is built from genuine user demands embedded in leading global e-commerce ecosystems and is carefully curated and annotated through human experts to ensure clarity, accuracy, and domain relevance. It covers multiple task categories within e-commerce scenarios and defines three difficulty levels that evaluate agents on key capabilities such as deep information retrieval, multi-step reasoning, and cross-source knowledge integration. By grounding evaluation in real e-commerce contexts, EcomBench provides a rigorous and dynamic testbed for measuring the practical capabilities of agents in modern e-commerce.