ChatPaper.aiChatPaper

**EcomBench: 전자상거래에서의 파운데이션 에이전트를 위한 종합적 평가 방향**

EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce

December 9, 2025
저자: Rui Min, Zile Qiao, Ze Xu, Jiawen Zhai, Wenyu Gao, Xuanzhong Chen, Haozhen Sun, Zhen Zhang, Xinyu Wang, Hong Zhou, Wenbiao Yin, Xuan Zhou, Yong Jiang, Haicheng Liu, Liang Ding, Ling Zou, Yi R., Fung, Yalong Li, Pengjun Xie
cs.AI

초록

파운데이션 에이전트의 현실 환경 추론 및 상호작용 능력이 빠르게 발전하면서 핵심 역량 평가의 중요성이 부각되고 있습니다. 다양한 에이전트 성능 벤치마크가 개발되었으나, 대부분 학술적 설정이나 인위적으로 설계된 시나리오에 집중하여 실제 응용 환경에서 발생하는 과제를 간과하고 있습니다. 이러한 문제를 해결하기 위해 본 연구는 실용성이 높은 현실 세계 설정인 전자상거래 영역에 주목합니다. 이 영역은 다양한 사용자 상호작용, 동적 시장 조건, 실제 의사결정 과정과 직결된 업무를 대규모로 포함합니다. 이에 우리는 현실적인 전자상거래 환경에서 에이전트 성능을 평가하기 위한 종합적 벤치마크인 EcomBench를 소개합니다. EcomBench는 글로벌 주요 전자상거래 생태계에 내재된 실제 사용자 요구를 기반으로 구축되었으며, 명확성, 정확성, 도메인 관련성을 보장하기 위해 전문가에 의해 세심하게 선별 및 주석 처리되었습니다. 본 벤치마크는 전자상거래 시나리오 내 여러 작업 범주를 포괄하며, 심층 정보 검색, 다단계 추론, 크로스소스 지식 통합 등 핵심 역량을 평가하는 세 가지 난이도 수준을 정의합니다. 실제 전자상거래 맥락에 기반한 평가를 통해 EcomBench는 현대 전자상거래 환경에서 에이전트의 실용적 능력을 측정하는 엄격하고 동적인 테스트베드를 제공합니다.
English
Foundation agents have rapidly advanced in their ability to reason and interact with real environments, making the evaluation of their core capabilities increasingly important. While many benchmarks have been developed to assess agent performance, most concentrate on academic settings or artificially designed scenarios while overlooking the challenges that arise in real applications. To address this issue, we focus on a highly practical real-world setting, the e-commerce domain, which involves a large volume of diverse user interactions, dynamic market conditions, and tasks directly tied to real decision-making processes. To this end, we introduce EcomBench, a holistic E-commerce Benchmark designed to evaluate agent performance in realistic e-commerce environments. EcomBench is built from genuine user demands embedded in leading global e-commerce ecosystems and is carefully curated and annotated through human experts to ensure clarity, accuracy, and domain relevance. It covers multiple task categories within e-commerce scenarios and defines three difficulty levels that evaluate agents on key capabilities such as deep information retrieval, multi-step reasoning, and cross-source knowledge integration. By grounding evaluation in real e-commerce contexts, EcomBench provides a rigorous and dynamic testbed for measuring the practical capabilities of agents in modern e-commerce.
PDF21December 11, 2025