EcomBench: Verso una Valutazione Olistica degli Agenti Fondamentali nell'E-Commerce
EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce
December 9, 2025
Autori: Rui Min, Zile Qiao, Ze Xu, Jiawen Zhai, Wenyu Gao, Xuanzhong Chen, Haozhen Sun, Zhen Zhang, Xinyu Wang, Hong Zhou, Wenbiao Yin, Xuan Zhou, Yong Jiang, Haicheng Liu, Liang Ding, Ling Zou, Yi R., Fung, Yalong Li, Pengjun Xie
cs.AI
Abstract
Gli agenti fondazionali hanno rapidamente progredito nelle capacità di ragionamento e interazione con ambienti reali, rendendo sempre più cruciale la valutazione delle loro competenze fondamentali. Sebbene siano stati sviluppati molti benchmark per valutare le prestazioni degli agenti, la maggior parte si concentra su contesti accademici o scenari progettati artificialmente, trascurando le sfide che emergono nelle applicazioni reali. Per affrontare questa lacuna, ci focalizziamo su un ambito estremamente pratico e reale: il dominio dell'e-commerce, che coinvolge un volume elevato di interazioni utente diversificate, condizioni di mercato dinamiche e compiti legati direttamente a processi decisionali reali. A tal fine, introduciamo EcomBench, un benchmark olistico per l'e-commerce progettato per valutare le prestazioni degli agenti in ambienti di e-commerce realistici. EcomBench è costruito a partire da richieste autentiche degli utenti integrate nei principali ecosistemi globali di e-commerce ed è curato e annotato meticolosamente da esperti umani per garantire chiarezza, accuratezza e pertinenza settoriale. Copre multiple categorie di compiti negli scenari di e-commerce e definisce tre livelli di difficoltà che valutano gli agenti su capacità chiave come la ricerca approfondita di informazioni, il ragionamento multi-step e l'integrazione di conoscenze trasversali. Basando la valutazione su contesti reali di e-commerce, EcomBench fornisce un banco di prova rigoroso e dinamico per misurare le capacità pratiche degli agenti nell'e-commerce moderno.
English
Foundation agents have rapidly advanced in their ability to reason and interact with real environments, making the evaluation of their core capabilities increasingly important. While many benchmarks have been developed to assess agent performance, most concentrate on academic settings or artificially designed scenarios while overlooking the challenges that arise in real applications. To address this issue, we focus on a highly practical real-world setting, the e-commerce domain, which involves a large volume of diverse user interactions, dynamic market conditions, and tasks directly tied to real decision-making processes. To this end, we introduce EcomBench, a holistic E-commerce Benchmark designed to evaluate agent performance in realistic e-commerce environments. EcomBench is built from genuine user demands embedded in leading global e-commerce ecosystems and is carefully curated and annotated through human experts to ensure clarity, accuracy, and domain relevance. It covers multiple task categories within e-commerce scenarios and defines three difficulty levels that evaluate agents on key capabilities such as deep information retrieval, multi-step reasoning, and cross-source knowledge integration. By grounding evaluation in real e-commerce contexts, EcomBench provides a rigorous and dynamic testbed for measuring the practical capabilities of agents in modern e-commerce.