One-Eval: Un sistema agéntico para la evaluación automatizada y trazable de LLM

Resumen

La evaluación confiable es esencial para desarrollar e implementar modelos de lenguaje grandes, pero en la práctica a menudo requiere un esfuerzo manual sustancial: los profesionales deben identificar puntos de referencia adecuados, reproducir bases de código de evaluación heterogéneas, configurar mapeos de esquemas de conjuntos de datos e interpretar métricas agregadas. Para abordar estos desafíos, presentamos One-Eval, un sistema de evaluación agéntico que convierte solicitudes de evaluación en lenguaje natural en flujos de trabajo evaluables, trazables y personalizables. One-Eval integra (i) NL2Bench para la estructuración de intenciones y la planificación personalizada de puntos de referencia, (ii) BenchResolve para la resolución de puntos de referencia, la adquisición automática de conjuntos de datos y la normalización de esquemas para garantizar la ejecutabilidad, y (iii) Métricas e Informes para la selección de métricas conscientes de la tarea y la generación de informes orientados a la decisión más allá de las puntuaciones escalares. El sistema incorpora además puntos de control con intervención humana para revisión, edición y reversión, preservando trazas de evidencia de muestras para depuración y auditabilidad. Los experimentos muestran que One-Eval puede ejecutar evaluaciones integrales a partir de diversas solicitudes en lenguaje natural con un esfuerzo de usuario mínimo, apoyando una evaluación más eficiente y reproducible en entornos industriales. Nuestro marco está disponible públicamente en https://github.com/OpenDCAI/One-Eval.

English

Reliable evaluation is essential for developing and deploying large language models, yet in practice it often requires substantial manual effort: practitioners must identify appropriate benchmarks, reproduce heterogeneous evaluation codebases, configure dataset schema mappings, and interpret aggregated metrics. To address these challenges, we present One-Eval, an agentic evaluation system that converts natural-language evaluation requests into executable, traceable, and customizable evaluation workflows. One-Eval integrates (i) NL2Bench for intent structuring and personalized benchmark planning, (ii) BenchResolve for benchmark resolution, automatic dataset acquisition, and schema normalization to ensure executability, and (iii) Metrics \& Reporting for task-aware metric selection and decision-oriented reporting beyond scalar scores. The system further incorporates human-in-the-loop checkpoints for review, editing, and rollback, while preserving sample evidence trails for debugging and auditability. Experiments show that One-Eval can execute end-to-end evaluations from diverse natural-language requests with minimal user effort, supporting more efficient and reproducible evaluation in industrial settings. Our framework is publicly available at https://github.com/OpenDCAI/One-Eval.

One-Eval: Un sistema agéntico para la evaluación automatizada y trazable de LLM

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Resumen

Support