One-Eval: Um Sistema Agente para Avaliação Automatizada e Rastreável de LLMs

Resumo

A avaliação confiável é essencial para o desenvolvimento e implementação de grandes modelos de linguagem, mas, na prática, frequentemente exige um esforço manual substancial: os profissionais devem identificar benchmarks apropriados, reproduzir codebases de avaliação heterogéneas, configurar mapeamentos de esquemas de conjuntos de dados e interpretar métricas agregadas. Para enfrentar estes desafios, apresentamos o One-Eval, um sistema de avaliação agentivo que converte pedidos de avaliação em linguagem natural em fluxos de trabalho de avaliação executáveis, rastreáveis e personalizáveis. O One-Eval integra (i) o NL2Bench para estruturação de intenções e planeamento personalizado de benchmarks, (ii) o BenchResolve para resolução de benchmarks, aquisição automática de conjuntos de dados e normalização de esquemas para garantir a executabilidade, e (iii) Métricas e Relatórios para seleção de métricas conscientes da tarefa e relatórios orientados para decisão que vão além de pontuações escalares. O sistema incorpora ainda pontos de verificação com intervenção humana para revisão, edição e reversão, preservando trilhos de evidências de amostras para depuração e auditabilidade. Experiências mostram que o One-Eval pode executar avaliações de ponta a ponta a partir de diversos pedidos em linguagem natural com esforço mínimo do utilizador, suportando uma avaliação mais eficiente e reproduzível em contextos industriais. A nossa estrutura está publicamente disponível em https://github.com/OpenDCAI/One-Eval.

English

Reliable evaluation is essential for developing and deploying large language models, yet in practice it often requires substantial manual effort: practitioners must identify appropriate benchmarks, reproduce heterogeneous evaluation codebases, configure dataset schema mappings, and interpret aggregated metrics. To address these challenges, we present One-Eval, an agentic evaluation system that converts natural-language evaluation requests into executable, traceable, and customizable evaluation workflows. One-Eval integrates (i) NL2Bench for intent structuring and personalized benchmark planning, (ii) BenchResolve for benchmark resolution, automatic dataset acquisition, and schema normalization to ensure executability, and (iii) Metrics \& Reporting for task-aware metric selection and decision-oriented reporting beyond scalar scores. The system further incorporates human-in-the-loop checkpoints for review, editing, and rollback, while preserving sample evidence trails for debugging and auditability. Experiments show that One-Eval can execute end-to-end evaluations from diverse natural-language requests with minimal user effort, supporting more efficient and reproducible evaluation in industrial settings. Our framework is publicly available at https://github.com/OpenDCAI/One-Eval.

One-Eval: Um Sistema Agente para Avaliação Automatizada e Rastreável de LLMs

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Resumo

Support