ChatPaper.aiChatPaper

One-Eval: Агентная система для автоматизированной и отслеживаемой оценки больших языковых моделей

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

March 10, 2026
Авторы: Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang
cs.AI

Аннотация

Надежная оценка является ключевым аспектом разработки и внедрения больших языковых моделей, однако на практике она часто требует значительных ручных усилий: специалистам необходимо подбирать соответствующие бенчмарки, воспроизводить разнородные кодобазы для оценки, настраивать схемы сопоставления данных и интерпретировать агрегированные метрики. Для решения этих проблем мы представляем One-Eval — агентскую систему оценки, преобразующую запросы на естественном языке в исполняемые, отслеживаемые и настраиваемые рабочие процессы оценки. One-Eval объединяет (i) NL2Bench для структурирования намерений и персонализированного планирования бенчмарков, (ii) BenchResolve для разрешения бенчмарков, автоматического сбора данных и нормализации схемы для обеспечения исполняемости, а также (iii) Metrics & Reporting для выбора метрик с учетом задачи и формирования отчетов, ориентированных на принятие решений, выходящих за рамки скалярных оценок. Система также включает контрольные точки с участием человека для проверки, редактирования и отката изменений, сохраняя при этом трассировку примеров для отладки и аудита. Эксперименты показывают, что One-Eval способна выполнять сквозную оценку по разнообразным запросам на естественном языке при минимальных усилиях пользователя, обеспечивая более эффективную и воспроизводимую оценку в промышленных условиях. Наш фреймворк доступен по адресу https://github.com/OpenDCAI/One-Eval.
English
Reliable evaluation is essential for developing and deploying large language models, yet in practice it often requires substantial manual effort: practitioners must identify appropriate benchmarks, reproduce heterogeneous evaluation codebases, configure dataset schema mappings, and interpret aggregated metrics. To address these challenges, we present One-Eval, an agentic evaluation system that converts natural-language evaluation requests into executable, traceable, and customizable evaluation workflows. One-Eval integrates (i) NL2Bench for intent structuring and personalized benchmark planning, (ii) BenchResolve for benchmark resolution, automatic dataset acquisition, and schema normalization to ensure executability, and (iii) Metrics \& Reporting for task-aware metric selection and decision-oriented reporting beyond scalar scores. The system further incorporates human-in-the-loop checkpoints for review, editing, and rollback, while preserving sample evidence trails for debugging and auditability. Experiments show that One-Eval can execute end-to-end evaluations from diverse natural-language requests with minimal user effort, supporting more efficient and reproducible evaluation in industrial settings. Our framework is publicly available at https://github.com/OpenDCAI/One-Eval.
PDF102March 19, 2026