Evaluación comparativa de todo en todas partes a la vez

Resumen

Los benchmarks son fundamentales para evaluar y avanzar en los LLMs y MLLMs, ya que proporcionan medidas estandarizadas y explícitas de rendimiento. Sin embargo, su construcción requiere mucho trabajo y es difícil de reutilizar, lo que genera preocupaciones sobre la sostenibilidad y escalabilidad. Además, los benchmarks existentes a menudo alcanzan rápidamente la saturación de rendimiento tras su publicación, lo que resulta en una discriminación insuficiente entre los modelos de última generación. Para abordar estos desafíos, presentamos Benchmark Agent, un sistema agéntico totalmente autónomo diseñado para la construcción de benchmarks. Nuestro marco orquesta el pipeline completo de construcción de benchmarks, desde el análisis de consultas de usuario y el diseño de subtareas hasta la anotación de datos y el control de calidad. Para evaluar Benchmark Agent, lo implementamos para producir 15 benchmarks representativos que abarcan diversos escenarios de evaluación, incluyendo comprensión de texto, comprensión multimodal y razonamiento específico de dominio. Experimentos exhaustivos, que incluyen evaluación humana, evaluación con LLM como juez y comprobaciones de consistencia, demuestran que Benchmark Agent puede generar muestras de benchmark de alta calidad con una mínima intervención humana. Más importante aún, a través de la evaluación continua, observamos varios hallazgos reveladores, incluyendo que los modelos actuales tienen dificultades con ciertas tareas de razonamiento específico de dominio. Creemos que los benchmarks en rápida evolución pueden contribuir significativamente a la comunidad investigadora. La vista previa y el código estarán disponibles públicamente en la página de demostración y en el repositorio de código.

English

Benchmarks are fundamental for evaluating and advancing LLMs and MLLMs by providing standardized and explicit measures of performance. However, their construction is labor-intensive and hard to reuse, raising concerns about sustainability and scalability. Moreover, existing benchmarks often quickly reach performance saturation after their release, resulting in insufficient discrimination among state-of-the-art models. To address these challenges, we introduce Benchmark Agent, a fully autonomous agentic system designed for benchmark building. Our framework orchestrates the complete benchmark construction pipeline, from user query analysis and subtask design to data annotation and quality control. To assess Benchmark Agent, we implement it to produce 15 representative benchmarks, spanning diverse evaluation scenarios, including text understanding, multimodal understanding, and domain-specific reasoning. Extensive experiments, including human evaluation, LLM-as-a-judge assessment, and consistency checks, demonstrate Benchmark Agent can generate high-quality benchmark samples with minimal human involvement. More importantly, through continual evaluation, we observe several insightful findings, including that current models struggle with certain domain-specific reasoning tasks. We believe that rapidly evolving benchmarks can contribute significantly to the research community. The preview and code will be publicly available at the demo page and code repository.