One-Eval: un sistema agente per la valutazione automatizzata e tracciabile di LLM

Abstract

Una valutazione affidabile è essenziale per lo sviluppo e il dispiegamento di grandi modelli linguistici, ma nella pratica richiede spesso un notevole sforzo manuale: i professionisti devono identificare benchmark appropriati, riprodurre codebase di valutazione eterogenei, configurare mappature di schemi di dataset e interpretare metriche aggregate. Per affrontare queste sfide, presentiamo One-Eval, un sistema di valutazione agente che converte richieste di valutazione in linguaggio naturale in flussi di lavoro di valutazione eseguibili, tracciabili e personalizzabili. One-Eval integra (i) NL2Bench per la strutturazione dell'intento e la pianificazione personalizzata dei benchmark, (ii) BenchResolve per la risoluzione dei benchmark, l'acquisizione automatica dei dataset e la normalizzazione dello schema per garantire l'eseguibilità, e (iii) Metriche e Reporting per la selezione di metriche consapevoli del compito e una reportistica orientata alle decisioni che va oltre i punteggi scalari. Il sistema incorpora inoltre checkpoint con umano nel ciclo per la revisione, la modifica e il rollback, preservando al contempo tracce di evidenze campionarie per il debug e l'auditabilità. Gli esperimenti dimostrano che One-Eval può eseguire valutazioni end-to-end a partire da richieste eterogenee in linguaggio naturale con uno sforzo utente minimo, supportando una valutazione più efficiente e riproducibile in contesti industriali. Il nostro framework è pubblicamente disponibile all'indirizzo https://github.com/OpenDCAI/One-Eval.

English

Reliable evaluation is essential for developing and deploying large language models, yet in practice it often requires substantial manual effort: practitioners must identify appropriate benchmarks, reproduce heterogeneous evaluation codebases, configure dataset schema mappings, and interpret aggregated metrics. To address these challenges, we present One-Eval, an agentic evaluation system that converts natural-language evaluation requests into executable, traceable, and customizable evaluation workflows. One-Eval integrates (i) NL2Bench for intent structuring and personalized benchmark planning, (ii) BenchResolve for benchmark resolution, automatic dataset acquisition, and schema normalization to ensure executability, and (iii) Metrics \& Reporting for task-aware metric selection and decision-oriented reporting beyond scalar scores. The system further incorporates human-in-the-loop checkpoints for review, editing, and rollback, while preserving sample evidence trails for debugging and auditability. Experiments show that One-Eval can execute end-to-end evaluations from diverse natural-language requests with minimal user effort, supporting more efficient and reproducible evaluation in industrial settings. Our framework is publicly available at https://github.com/OpenDCAI/One-Eval.

One-Eval: un sistema agente per la valutazione automatizzata e tracciabile di LLM

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Abstract

Support