ChatPaper.aiChatPaper

One-Eval: 자동화 및 추적 가능한 LLM 평가를 위한 에이전트 시스템

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

March 10, 2026
저자: Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang
cs.AI

초록

신뢰할 수 있는 평가는 대규모 언어 모델을 개발하고 배포하는 데 필수적이지만, 실제로는 상당한 수동 작업이 필요한 경우가 많습니다. 실무자는 적절한 벤치마크를 식별하고, 이질적인 평가 코드베이스를 재현하며, 데이터셋 스키마 매핑을 구성하고, 집계된 메트릭을 해석해야 합니다. 이러한 문제를 해결하기 위해 우리는 자연어 평가 요청을 실행 가능하고 추적 가능하며 사용자 정의가 가능한 평가 워크플로로 변환하는 에이전트 기반 평가 시스템인 One-Eval을 제안합니다. One-Eval은 (i) 의도 구조화 및 개인화된 벤치마크 계획을 위한 NL2Bench, (ii) 실행 가능성을 보장하기 위한 벤치마크 해결, 자동 데이터셋 획득 및 스키마 정규화를 담당하는 BenchResolve, (iii) 작업 인식 메트릭 선택 및 스칼라 점수 이상의 의사 결정 지향 보고를 위한 Metrics & Reporting을 통합합니다. 본 시스템은 또한 검토, 편집 및 롤백을 위한 인간 참여형 검증 지점을 포함하며, 디버깅과 감사 가능성을 위한 샘플 증적 트레일을 보존합니다. 실험 결과, One-Eval은 최소한의 사용자 노력으로 다양한 자연어 요청에서 종단 간 평가를 실행할 수 있어 산업 현장에서 더 효율적이고 재현 가능한 평가를 지원함을 확인했습니다. 우리의 프레임워크는 https://github.com/OpenDCAI/One-Eval에서 공개되어 있습니다.
English
Reliable evaluation is essential for developing and deploying large language models, yet in practice it often requires substantial manual effort: practitioners must identify appropriate benchmarks, reproduce heterogeneous evaluation codebases, configure dataset schema mappings, and interpret aggregated metrics. To address these challenges, we present One-Eval, an agentic evaluation system that converts natural-language evaluation requests into executable, traceable, and customizable evaluation workflows. One-Eval integrates (i) NL2Bench for intent structuring and personalized benchmark planning, (ii) BenchResolve for benchmark resolution, automatic dataset acquisition, and schema normalization to ensure executability, and (iii) Metrics \& Reporting for task-aware metric selection and decision-oriented reporting beyond scalar scores. The system further incorporates human-in-the-loop checkpoints for review, editing, and rollback, while preserving sample evidence trails for debugging and auditability. Experiments show that One-Eval can execute end-to-end evaluations from diverse natural-language requests with minimal user effort, supporting more efficient and reproducible evaluation in industrial settings. Our framework is publicly available at https://github.com/OpenDCAI/One-Eval.
PDF102March 19, 2026