EcomBench: Rumo a uma Avaliação Holística de Agentes Base em E-commerce

Resumo

Os agentes de base avançaram rapidamente em sua capacidade de raciocinar e interagir com ambientes reais, tornando a avaliação de suas capacidades centrais cada vez mais importante. Embora muitos benchmarks tenham sido desenvolvidos para avaliar o desempenho de agentes, a maioria concentra-se em ambientes acadêmicos ou cenários artificialmente projetados, negligenciando os desafios que surgem em aplicações reais. Para resolver esta questão, focamos num cenário do mundo real altamente prático: o domínio do comércio eletrónico, que envolve um grande volume de interações diversificadas de utilizadores, condições dinâmicas de mercado e tarefas diretamente ligadas a processos reais de tomada de decisão. Para tal, introduzimos o EcomBench, um Benchmark Holístico de Comércio Eletrónico concebido para avaliar o desempenho de agentes em ambientes realistas de e-commerce. O EcomBench é construído a partir de necessidades genuínas dos utilizadores, incorporadas nos principais ecossistemas globais de comércio eletrónico, e é cuidadosamente selecionado e anotado por especialistas humanos para garantir clareza, precisão e relevância no domínio. Abrange múltiplas categorias de tarefas dentro de cenários de e-commerce e define três níveis de dificuldade que avaliam os agentes em capacidades-chave, como recuperação profunda de informação, raciocínio multi-etapa e integração de conhecimento de múltiplas fontes. Ao fundamentar a avaliação em contextos reais de comércio eletrónico, o EcomBench fornece um teste rigoroso e dinâmico para medir as capacidades práticas dos agentes no e-commerce moderno.

English

Foundation agents have rapidly advanced in their ability to reason and interact with real environments, making the evaluation of their core capabilities increasingly important. While many benchmarks have been developed to assess agent performance, most concentrate on academic settings or artificially designed scenarios while overlooking the challenges that arise in real applications. To address this issue, we focus on a highly practical real-world setting, the e-commerce domain, which involves a large volume of diverse user interactions, dynamic market conditions, and tasks directly tied to real decision-making processes. To this end, we introduce EcomBench, a holistic E-commerce Benchmark designed to evaluate agent performance in realistic e-commerce environments. EcomBench is built from genuine user demands embedded in leading global e-commerce ecosystems and is carefully curated and annotated through human experts to ensure clarity, accuracy, and domain relevance. It covers multiple task categories within e-commerce scenarios and defines three difficulty levels that evaluate agents on key capabilities such as deep information retrieval, multi-step reasoning, and cross-source knowledge integration. By grounding evaluation in real e-commerce contexts, EcomBench provides a rigorous and dynamic testbed for measuring the practical capabilities of agents in modern e-commerce.