One-Eval: Een Agent-gebaseerd Systeem voor Geautomatiseerde en Traceerbare LLM-evaluatie

Samenvatting

Betrouwbare evaluatie is essentieel voor de ontwikkeling en inzet van grote taalmodellen, maar vereist in de praktijk vaak aanzienlijke handmatige inspanning: ontwikkelaars moeten geschikte benchmarks identificeren, heterogene evaluatiecodebases reproduceren, gegevensset-schematoewijzingen configureren en geaggregeerde metrieken interpreteren. Om deze uitdagingen aan te pakken, presenteren we One-Eval, een agent-gebaseerd evaluatiesysteem dat natuurlijktaal-evaluatieverzoeken omzet in uitvoerbare, traceerbare en aanpasbare evaluatieworkflows. One-Eval integreert (i) NL2Bench voor intentiestructurering en gepersonaliseerde benchmarkplanning, (ii) BenchResolve voor benchmarkresolutie, automatische gegevenssetverwerving en schemanormalisatie om uitvoerbaarheid te garanderen, en (iii) Metrieken & Rapportage voor taakbewuste metriekenselectie en besluitgerichte rapportage die verder gaat dan numerieke scores. Het systeem bevat verder menselijke controlepunten voor review, bewerking en terugdraaiacties, waarbij tevens sporen van steekproefbewijs worden bewaard voor debugging en controleerbaarheid. Experimenten tonen aan dat One-Eval end-to-end evaluaties kan uitvoeren vanuit diverse natuurlijktaalverzoeken met minimale gebruikersinspanning, wat efficiëntere en reproduceerbaardere evaluatie in industriële settings ondersteunt. Ons raamwerk is publiekelijk beschikbaar op https://github.com/OpenDCAI/One-Eval.

English

Reliable evaluation is essential for developing and deploying large language models, yet in practice it often requires substantial manual effort: practitioners must identify appropriate benchmarks, reproduce heterogeneous evaluation codebases, configure dataset schema mappings, and interpret aggregated metrics. To address these challenges, we present One-Eval, an agentic evaluation system that converts natural-language evaluation requests into executable, traceable, and customizable evaluation workflows. One-Eval integrates (i) NL2Bench for intent structuring and personalized benchmark planning, (ii) BenchResolve for benchmark resolution, automatic dataset acquisition, and schema normalization to ensure executability, and (iii) Metrics \& Reporting for task-aware metric selection and decision-oriented reporting beyond scalar scores. The system further incorporates human-in-the-loop checkpoints for review, editing, and rollback, while preserving sample evidence trails for debugging and auditability. Experiments show that One-Eval can execute end-to-end evaluations from diverse natural-language requests with minimal user effort, supporting more efficient and reproducible evaluation in industrial settings. Our framework is publicly available at https://github.com/OpenDCAI/One-Eval.

One-Eval: Een Agent-gebaseerd Systeem voor Geautomatiseerde en Traceerbare LLM-evaluatie

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Samenvatting

Support