One-Eval: Ein agentenbasiertes System für automatisierte und nachvollziehbare LLM-Evaluierung

Zusammenfassung

Eine zuverlässige Evaluation ist unerlässlich für die Entwicklung und den Einsatz großer Sprachmodelle, erfordert in der Praxis jedoch oft erheblichen manuellen Aufwand: Praktiker müssen geeignete Benchmarks identifizieren, heterogene Evaluations-Codebasen reproduzieren, Datensatz-Schema-Mappings konfigurieren und aggregierte Metriken interpretieren. Um diese Herausforderungen zu bewältigen, stellen wir One-Eval vor, ein agentenbasiertes Evaluationssystem, das natürlichsprachliche Evaluationsanfragen in ausführbare, nachvollziehbare und anpassbare Evaluations-Workflows umwandelt. One-Eval integriert (i) NL2Bench zur Intent-Strukturierung und personalisierten Benchmark-Planung, (ii) BenchResolve zur Benchmark-Auflösung, automatischen Datensatzbeschaffung und Schema-Normalisierung zur Gewährleistung der Ausführbarkeit sowie (iii) Metrics & Reporting zur aufgabenbewussten Metrikauswahl und entscheidungsorientierten Berichterstattung über skalare Scores hinaus. Das System integriert zudem Human-in-the-Loop-Kontrollpunkte für Überprüfung, Bearbeitung und Rollback, während es Stichprobennachweise für Debugging und Nachvollziehbarkeit bewahrt. Experimente zeigen, dass One-Eval End-to-End-Evaluationen aus diversen natürlichsprachlichen Anfragen mit minimalem Benutzeraufwand durchführen kann und so eine effizientere und reproduzierbarere Evaluation in industriellen Umgebungen unterstützt. Unser Framework ist öffentlich verfügbar unter https://github.com/OpenDCAI/One-Eval.

English

Reliable evaluation is essential for developing and deploying large language models, yet in practice it often requires substantial manual effort: practitioners must identify appropriate benchmarks, reproduce heterogeneous evaluation codebases, configure dataset schema mappings, and interpret aggregated metrics. To address these challenges, we present One-Eval, an agentic evaluation system that converts natural-language evaluation requests into executable, traceable, and customizable evaluation workflows. One-Eval integrates (i) NL2Bench for intent structuring and personalized benchmark planning, (ii) BenchResolve for benchmark resolution, automatic dataset acquisition, and schema normalization to ensure executability, and (iii) Metrics \& Reporting for task-aware metric selection and decision-oriented reporting beyond scalar scores. The system further incorporates human-in-the-loop checkpoints for review, editing, and rollback, while preserving sample evidence trails for debugging and auditability. Experiments show that One-Eval can execute end-to-end evaluations from diverse natural-language requests with minimal user effort, supporting more efficient and reproducible evaluation in industrial settings. Our framework is publicly available at https://github.com/OpenDCAI/One-Eval.

One-Eval: Ein agentenbasiertes System für automatisierte und nachvollziehbare LLM-Evaluierung

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Zusammenfassung

Support