ЭкомБенч: К всесторонней оценке базовых агентов в электронной коммерции
EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce
December 9, 2025
Авторы: Rui Min, Zile Qiao, Ze Xu, Jiawen Zhai, Wenyu Gao, Xuanzhong Chen, Haozhen Sun, Zhen Zhang, Xinyu Wang, Hong Zhou, Wenbiao Yin, Xuan Zhou, Yong Jiang, Haicheng Liu, Liang Ding, Ling Zou, Yi R., Fung, Yalong Li, Pengjun Xie
cs.AI
Аннотация
Фундаментальные агенты быстро развивают способности к рассуждениям и взаимодействию с реальными средами, что делает оценку их ключевых компетенций все более важной. Хотя было разработано множество бенчмарков для оценки производительности агентов, большинство из них сосредоточены на академических условиях или искусственно созданных сценариях, игнорируя проблемы, возникающие в реальных приложениях. Для решения этой проблемы мы фокусируемся на высокопрактичной реальной области — электронной коммерции, которая предполагает большой объем разнообразных пользовательских взаимодействий, динамичные рыночные условия и задачи, непосредственно связанные с реальными процессами принятия решений. С этой целью мы представляем EcomBench — целостный бенчмарк для электронной коммерции, предназначенный для оценки производительности агентов в реалистичных условиях электронной торговли. EcomBench построен на основе подлинных пользовательских запросов, встроенных в ведущие глобальные экосистемы электронной коммерции, и тщательно отобран и аннотирован экспертами для обеспечения ясности, точности и релевантности предметной области. Он охватывает несколько категорий задач в сценариях электронной коммерции и определяет три уровня сложности, оценивающие ключевые способности агентов, такие как глубокий информационный поиск, многошаговые рассуждения и интеграция знаний из различных источников. Основывая оценку на реальных контекстах электронной коммерции, EcomBench предоставляет строгую и динамичную тестовую среду для измерения практических возможностей агентов в современных условиях электронной торговли.
English
Foundation agents have rapidly advanced in their ability to reason and interact with real environments, making the evaluation of their core capabilities increasingly important. While many benchmarks have been developed to assess agent performance, most concentrate on academic settings or artificially designed scenarios while overlooking the challenges that arise in real applications. To address this issue, we focus on a highly practical real-world setting, the e-commerce domain, which involves a large volume of diverse user interactions, dynamic market conditions, and tasks directly tied to real decision-making processes. To this end, we introduce EcomBench, a holistic E-commerce Benchmark designed to evaluate agent performance in realistic e-commerce environments. EcomBench is built from genuine user demands embedded in leading global e-commerce ecosystems and is carefully curated and annotated through human experts to ensure clarity, accuracy, and domain relevance. It covers multiple task categories within e-commerce scenarios and defines three difficulty levels that evaluate agents on key capabilities such as deep information retrieval, multi-step reasoning, and cross-source knowledge integration. By grounding evaluation in real e-commerce contexts, EcomBench provides a rigorous and dynamic testbed for measuring the practical capabilities of agents in modern e-commerce.