大規模言語モデルにおける関数呼び出しの指示追従評価
Instruction-Following Evaluation in Function Calling for Large Language Models
September 22, 2025
著者: Nikolai Skripko
cs.AI
要旨
関数呼び出しは大規模言語モデルのコア機能であり、AIエージェントにとって不可欠です。既存のベンチマークであるBerkeley Function Calling Leaderboard(BFCL)、tau^2-Bench(arXiv:2506.07982)、およびACEBench(arXiv:2501.12851)は、引数の正確性を評価しますが、パラメータの説明に埋め込まれたフォーマット指示(例えば、値を二重引用符で囲むことやISO日付形式を使用すること)の遵守をテストしません。
私たちはIFEval(arXiv:2311.07911)にインスパイアされたIFEval-FCというベンチマークを導入し、関数呼び出しにおける正確な指示遵守を評価します。IFEval-FCは、検証可能なフォーマットをJSONスキーマの説明に直接エンコードします。例えば、値に句読点を含んではならないことを指定します。750のテストケースを含み、各ケースは、入力パラメータの1つに埋め込まれたフォーマットと対応するユーザークエリで構成されます。評価は完全にアルゴリズム化されており、客観性、再現性、およびスケーラビリティを確保します。
私たちの結果は、GPT-5やClaude 4.1 Opusを含む最先端のプロプライエタリモデルでさえ、基本的なフォーマットルールに従わないことが頻繁にあることを示しており、実世界のエージェントシステムにおける実用的な制限を浮き彫りにしています。完全なコードベースとデータはhttps://github.com/Skripkon/IFEval-FCで公開されています。
English
Function calling is a core capability of large language models, essential for
AI agents. Existing benchmarks such as the Berkeley Function Calling
Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982), and ACEBench
(arXiv:2501.12851) evaluate argument correctness but do not test adherence to
format instructions embedded in parameter descriptions, such as enclosing
values in double quotes or using ISO date formats.
We introduce IFEval-FC, a benchmark inspired by IFEval (arXiv:2311.07911)
that assesses precise instruction following in function calling. IFEval-FC
encodes verifiable formats directly within JSON schema descriptions, for
example specifying that a value must not contain punctuation. It includes 750
test cases, each consisting of a function with an embedded format for one of
its input parameters and a corresponding user query. Evaluation is fully
algorithmic, ensuring objectivity, reproducibility, and scalability.
Our results show that even state-of-the-art proprietary models, including
GPT-5 and Claude 4.1 Opus, frequently fail to follow basic formatting rules,
highlighting a practical limitation for real-world agent systems. The complete
codebase and data are publicly available at
https://github.com/Skripkon/IFEval-FC.