One-Eval : Un système agentique pour l'évaluation automatisée et traçable des LLM

Résumé

Une évaluation fiable est essentielle pour développer et déployer des modèles de langage à grande échelle, mais dans la pratique, elle nécessite souvent un effort manuel substantiel : les praticiens doivent identifier des benchmarks appropriés, reproduire des bases de code d'évaluation hétérogènes, configurer des mappings de schémas de données et interpréter des métriques agrégées. Pour relever ces défis, nous présentons One-Eval, un système d'évaluation agentique qui convertit des requêtes d'évaluation en langage naturel en workflows d'évaluation exécutables, traçables et personnalisables. One-Eval intègre (i) NL2Bench pour la structuration de l'intention et la planification personnalisée de benchmarks, (ii) BenchResolve pour la résolution de benchmarks, l'acquisition automatique de jeux de données et la normalisation des schémas afin d'assurer l'exécutabilité, et (iii) Métriques et Reporting pour la sélection de métriques adaptées aux tâches et un reporting orienté décision au-delà des scores scalaires. Le système intègre en outre des points de contrôle humains dans la boucle pour la revue, l'édition et la restauration, tout en préservant des traces d'échantillons pour le débogage et l'auditabilité. Les expériences montrent qu'One-Eval peut exécuter des évaluations de bout en bout à partir de requêtes variées en langage naturel avec un effort utilisateur minimal, supportant une évaluation plus efficace et reproductible en contexte industriel. Notre cadre est disponible publiquement à l'adresse https://github.com/OpenDCAI/One-Eval.

English

Reliable evaluation is essential for developing and deploying large language models, yet in practice it often requires substantial manual effort: practitioners must identify appropriate benchmarks, reproduce heterogeneous evaluation codebases, configure dataset schema mappings, and interpret aggregated metrics. To address these challenges, we present One-Eval, an agentic evaluation system that converts natural-language evaluation requests into executable, traceable, and customizable evaluation workflows. One-Eval integrates (i) NL2Bench for intent structuring and personalized benchmark planning, (ii) BenchResolve for benchmark resolution, automatic dataset acquisition, and schema normalization to ensure executability, and (iii) Metrics \& Reporting for task-aware metric selection and decision-oriented reporting beyond scalar scores. The system further incorporates human-in-the-loop checkpoints for review, editing, and rollback, while preserving sample evidence trails for debugging and auditability. Experiments show that One-Eval can execute end-to-end evaluations from diverse natural-language requests with minimal user effort, supporting more efficient and reproducible evaluation in industrial settings. Our framework is publicly available at https://github.com/OpenDCAI/One-Eval.

One-Eval : Un système agentique pour l'évaluation automatisée et traçable des LLM

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Résumé

Support