EcomBench: Hacia una Evaluación Integral de Agentes Fundamentales en el Comercio Electrónico

Resumen

Los agentes de base han avanzado rápidamente en su capacidad de razonamiento e interacción con entornos reales, lo que hace que la evaluación de sus capacidades centrales sea cada vez más importante. Si bien se han desarrollado muchos puntos de referencia para evaluar el rendimiento de los agentes, la mayoría se concentra en entornos académicos o escenarios artificialmente diseñados, pasando por alto los desafíos que surgen en aplicaciones reales. Para abordar este problema, nos enfocamos en un entorno del mundo real altamente práctico: el dominio del comercio electrónico, que involucra un gran volumen de interacciones diversas de usuarios, condiciones dinámicas del mercado y tareas directamente vinculadas a procesos reales de toma de decisiones. Con este fin, presentamos EcomBench, un punto de referencia holístico de comercio electrónico diseñado para evaluar el rendimiento de los agentes en entornos realistas de comercio electrónico. EcomBench se construye a partir de demandas genuinas de usuarios integradas en los principales ecosistemas globales de comercio electrónico y está cuidadosamente curado y anotado por expertos humanos para garantizar claridad, precisión y relevancia en el dominio. Cubre múltiples categorías de tareas dentro de escenarios de comercio electrónico y define tres niveles de dificultad que evalúan a los agentes en capacidades clave como la recuperación profunda de información, el razonamiento de múltiples pasos y la integración de conocimiento de múltiples fuentes. Al basar la evaluación en contextos reales de comercio electrónico, EcomBench proporciona un banco de pruebas riguroso y dinámico para medir las capacidades prácticas de los agentes en el comercio electrónico moderno.

English

Foundation agents have rapidly advanced in their ability to reason and interact with real environments, making the evaluation of their core capabilities increasingly important. While many benchmarks have been developed to assess agent performance, most concentrate on academic settings or artificially designed scenarios while overlooking the challenges that arise in real applications. To address this issue, we focus on a highly practical real-world setting, the e-commerce domain, which involves a large volume of diverse user interactions, dynamic market conditions, and tasks directly tied to real decision-making processes. To this end, we introduce EcomBench, a holistic E-commerce Benchmark designed to evaluate agent performance in realistic e-commerce environments. EcomBench is built from genuine user demands embedded in leading global e-commerce ecosystems and is carefully curated and annotated through human experts to ensure clarity, accuracy, and domain relevance. It covers multiple task categories within e-commerce scenarios and defines three difficulty levels that evaluate agents on key capabilities such as deep information retrieval, multi-step reasoning, and cross-source knowledge integration. By grounding evaluation in real e-commerce contexts, EcomBench provides a rigorous and dynamic testbed for measuring the practical capabilities of agents in modern e-commerce.