ChatPaper.aiChatPaper

One-Eval: Ein agentenbasiertes System für automatisierte und nachvollziehbare LLM-Evaluierung

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

March 10, 2026
Autoren: Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang
cs.AI

Zusammenfassung

Eine zuverlässige Evaluation ist unerlässlich für die Entwicklung und den Einsatz großer Sprachmodelle, erfordert in der Praxis jedoch oft erheblichen manuellen Aufwand: Praktiker müssen geeignete Benchmarks identifizieren, heterogene Evaluations-Codebasen reproduzieren, Datensatz-Schema-Mappings konfigurieren und aggregierte Metriken interpretieren. Um diese Herausforderungen zu bewältigen, stellen wir One-Eval vor, ein agentenbasiertes Evaluationssystem, das natürlichsprachliche Evaluationsanfragen in ausführbare, nachvollziehbare und anpassbare Evaluations-Workflows umwandelt. One-Eval integriert (i) NL2Bench zur Intent-Strukturierung und personalisierten Benchmark-Planung, (ii) BenchResolve zur Benchmark-Auflösung, automatischen Datensatzbeschaffung und Schema-Normalisierung zur Gewährleistung der Ausführbarkeit sowie (iii) Metrics & Reporting zur aufgabenbewussten Metrikauswahl und entscheidungsorientierten Berichterstattung über skalare Scores hinaus. Das System integriert zudem Human-in-the-Loop-Kontrollpunkte für Überprüfung, Bearbeitung und Rollback, während es Stichprobennachweise für Debugging und Nachvollziehbarkeit bewahrt. Experimente zeigen, dass One-Eval End-to-End-Evaluationen aus diversen natürlichsprachlichen Anfragen mit minimalem Benutzeraufwand durchführen kann und so eine effizientere und reproduzierbarere Evaluation in industriellen Umgebungen unterstützt. Unser Framework ist öffentlich verfügbar unter https://github.com/OpenDCAI/One-Eval.
English
Reliable evaluation is essential for developing and deploying large language models, yet in practice it often requires substantial manual effort: practitioners must identify appropriate benchmarks, reproduce heterogeneous evaluation codebases, configure dataset schema mappings, and interpret aggregated metrics. To address these challenges, we present One-Eval, an agentic evaluation system that converts natural-language evaluation requests into executable, traceable, and customizable evaluation workflows. One-Eval integrates (i) NL2Bench for intent structuring and personalized benchmark planning, (ii) BenchResolve for benchmark resolution, automatic dataset acquisition, and schema normalization to ensure executability, and (iii) Metrics \& Reporting for task-aware metric selection and decision-oriented reporting beyond scalar scores. The system further incorporates human-in-the-loop checkpoints for review, editing, and rollback, while preserving sample evidence trails for debugging and auditability. Experiments show that One-Eval can execute end-to-end evaluations from diverse natural-language requests with minimal user effort, supporting more efficient and reproducible evaluation in industrial settings. Our framework is publicly available at https://github.com/OpenDCAI/One-Eval.
PDF102March 19, 2026