One-Eval: Un sistema agéntico para la evaluación automatizada y trazable de LLM
One-Eval: An Agentic System for Automated and Traceable LLM Evaluation
March 10, 2026
Autores: Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang
cs.AI
Resumen
La evaluación confiable es esencial para desarrollar e implementar modelos de lenguaje grandes, pero en la práctica a menudo requiere un esfuerzo manual sustancial: los profesionales deben identificar puntos de referencia adecuados, reproducir bases de código de evaluación heterogéneas, configurar mapeos de esquemas de conjuntos de datos e interpretar métricas agregadas. Para abordar estos desafíos, presentamos One-Eval, un sistema de evaluación agéntico que convierte solicitudes de evaluación en lenguaje natural en flujos de trabajo evaluables, trazables y personalizables. One-Eval integra (i) NL2Bench para la estructuración de intenciones y la planificación personalizada de puntos de referencia, (ii) BenchResolve para la resolución de puntos de referencia, la adquisición automática de conjuntos de datos y la normalización de esquemas para garantizar la ejecutabilidad, y (iii) Métricas e Informes para la selección de métricas conscientes de la tarea y la generación de informes orientados a la decisión más allá de las puntuaciones escalares. El sistema incorpora además puntos de control con intervención humana para revisión, edición y reversión, preservando trazas de evidencia de muestras para depuración y auditabilidad. Los experimentos muestran que One-Eval puede ejecutar evaluaciones integrales a partir de diversas solicitudes en lenguaje natural con un esfuerzo de usuario mínimo, apoyando una evaluación más eficiente y reproducible en entornos industriales. Nuestro marco está disponible públicamente en https://github.com/OpenDCAI/One-Eval.
English
Reliable evaluation is essential for developing and deploying large language models, yet in practice it often requires substantial manual effort: practitioners must identify appropriate benchmarks, reproduce heterogeneous evaluation codebases, configure dataset schema mappings, and interpret aggregated metrics. To address these challenges, we present One-Eval, an agentic evaluation system that converts natural-language evaluation requests into executable, traceable, and customizable evaluation workflows. One-Eval integrates (i) NL2Bench for intent structuring and personalized benchmark planning, (ii) BenchResolve for benchmark resolution, automatic dataset acquisition, and schema normalization to ensure executability, and (iii) Metrics \& Reporting for task-aware metric selection and decision-oriented reporting beyond scalar scores. The system further incorporates human-in-the-loop checkpoints for review, editing, and rollback, while preserving sample evidence trails for debugging and auditability. Experiments show that One-Eval can execute end-to-end evaluations from diverse natural-language requests with minimal user effort, supporting more efficient and reproducible evaluation in industrial settings. Our framework is publicly available at https://github.com/OpenDCAI/One-Eval.