ChatPaper.aiChatPaper

Оценка выполнения инструкций при вызове функций в крупных языковых моделях

Instruction-Following Evaluation in Function Calling for Large Language Models

September 22, 2025
Авторы: Nikolai Skripko
cs.AI

Аннотация

Вызов функций является ключевой возможностью больших языковых моделей, необходимой для работы ИИ-агентов. Существующие бенчмарки, такие как Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982) и ACEBench (arXiv:2501.12851), оценивают корректность аргументов, но не проверяют соблюдение инструкций по форматированию, встроенных в описания параметров, таких как заключение значений в двойные кавычки или использование форматов дат по стандарту ISO. Мы представляем IFEval-FC — бенчмарк, вдохновленный IFEval (arXiv:2311.07911), который оценивает точное следование инструкциям при вызове функций. IFEval-FC кодирует проверяемые форматы непосредственно в описаниях JSON-схем, например, указывая, что значение не должно содержать знаков препинания. Он включает 750 тестовых случаев, каждый из которых состоит из функции с встроенным форматом для одного из её входных параметров и соответствующего пользовательского запроса. Оценка полностью алгоритмизирована, что обеспечивает объективность, воспроизводимость и масштабируемость. Наши результаты показывают, что даже передовые проприетарные модели, включая GPT-5 и Claude 4.1 Opus, часто не следуют базовым правилам форматирования, что подчеркивает практическое ограничение для реальных систем агентов. Полный код и данные доступны публично по адресу https://github.com/Skripkon/IFEval-FC.
English
Function calling is a core capability of large language models, essential for AI agents. Existing benchmarks such as the Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982), and ACEBench (arXiv:2501.12851) evaluate argument correctness but do not test adherence to format instructions embedded in parameter descriptions, such as enclosing values in double quotes or using ISO date formats. We introduce IFEval-FC, a benchmark inspired by IFEval (arXiv:2311.07911) that assesses precise instruction following in function calling. IFEval-FC encodes verifiable formats directly within JSON schema descriptions, for example specifying that a value must not contain punctuation. It includes 750 test cases, each consisting of a function with an embedded format for one of its input parameters and a corresponding user query. Evaluation is fully algorithmic, ensuring objectivity, reproducibility, and scalability. Our results show that even state-of-the-art proprietary models, including GPT-5 and Claude 4.1 Opus, frequently fail to follow basic formatting rules, highlighting a practical limitation for real-world agent systems. The complete codebase and data are publicly available at https://github.com/Skripkon/IFEval-FC.
PDF03September 29, 2025