One-Eval: Агентная система для автоматизированной и отслеживаемой оценки больших языковых моделей

Аннотация

Надежная оценка является ключевым аспектом разработки и внедрения больших языковых моделей, однако на практике она часто требует значительных ручных усилий: специалистам необходимо подбирать соответствующие бенчмарки, воспроизводить разнородные кодобазы для оценки, настраивать схемы сопоставления данных и интерпретировать агрегированные метрики. Для решения этих проблем мы представляем One-Eval — агентскую систему оценки, преобразующую запросы на естественном языке в исполняемые, отслеживаемые и настраиваемые рабочие процессы оценки. One-Eval объединяет (i) NL2Bench для структурирования намерений и персонализированного планирования бенчмарков, (ii) BenchResolve для разрешения бенчмарков, автоматического сбора данных и нормализации схемы для обеспечения исполняемости, а также (iii) Metrics & Reporting для выбора метрик с учетом задачи и формирования отчетов, ориентированных на принятие решений, выходящих за рамки скалярных оценок. Система также включает контрольные точки с участием человека для проверки, редактирования и отката изменений, сохраняя при этом трассировку примеров для отладки и аудита. Эксперименты показывают, что One-Eval способна выполнять сквозную оценку по разнообразным запросам на естественном языке при минимальных усилиях пользователя, обеспечивая более эффективную и воспроизводимую оценку в промышленных условиях. Наш фреймворк доступен по адресу https://github.com/OpenDCAI/One-Eval.

English

Reliable evaluation is essential for developing and deploying large language models, yet in practice it often requires substantial manual effort: practitioners must identify appropriate benchmarks, reproduce heterogeneous evaluation codebases, configure dataset schema mappings, and interpret aggregated metrics. To address these challenges, we present One-Eval, an agentic evaluation system that converts natural-language evaluation requests into executable, traceable, and customizable evaluation workflows. One-Eval integrates (i) NL2Bench for intent structuring and personalized benchmark planning, (ii) BenchResolve for benchmark resolution, automatic dataset acquisition, and schema normalization to ensure executability, and (iii) Metrics \& Reporting for task-aware metric selection and decision-oriented reporting beyond scalar scores. The system further incorporates human-in-the-loop checkpoints for review, editing, and rollback, while preserving sample evidence trails for debugging and auditability. Experiments show that One-Eval can execute end-to-end evaluations from diverse natural-language requests with minimal user effort, supporting more efficient and reproducible evaluation in industrial settings. Our framework is publicly available at https://github.com/OpenDCAI/One-Eval.

One-Eval: Агентная система для автоматизированной и отслеживаемой оценки больших языковых моделей

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Аннотация

Support