Evaluatie van Instructievolging in Functie-aanroepen voor Grote Taalmodellen
Instruction-Following Evaluation in Function Calling for Large Language Models
September 22, 2025
Auteurs: Nikolai Skripko
cs.AI
Samenvatting
Functie-aanroepen is een kernmogelijkheid van grote taalmodellen, essentieel voor AI-agenten. Bestaande benchmarks zoals het Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982) en ACEBench (arXiv:2501.12851) evalueren de correctheid van argumenten, maar testen niet de naleving van formaatinstructies die zijn ingebed in parameterbeschrijvingen, zoals het plaatsen van waarden tussen dubbele aanhalingstekens of het gebruik van ISO-datumformaten.
Wij introduceren IFEval-FC, een benchmark geïnspireerd door IFEval (arXiv:2311.07911) die het nauwkeurig opvolgen van instructies bij functie-aanroepen beoordeelt. IFEval-FC codeert verifieerbare formaten direct binnen JSON-schemabeschrijvingen, bijvoorbeeld door te specificeren dat een waarde geen leestekens mag bevatten. Het omvat 750 testgevallen, elk bestaande uit een functie met een ingebed formaat voor een van zijn invoerparameters en een bijbehorende gebruikersvraag. De evaluatie is volledig algoritmisch, wat objectiviteit, reproduceerbaarheid en schaalbaarheid garandeert.
Onze resultaten tonen aan dat zelfs state-of-the-art propriëtaire modellen, waaronder GPT-5 en Claude 4.1 Opus, vaak falen in het volgen van basisformatteringsregels, wat een praktische beperking voor real-world agentsystemen benadrukt. De volledige codebase en gegevens zijn openbaar beschikbaar op https://github.com/Skripkon/IFEval-FC.
English
Function calling is a core capability of large language models, essential for
AI agents. Existing benchmarks such as the Berkeley Function Calling
Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982), and ACEBench
(arXiv:2501.12851) evaluate argument correctness but do not test adherence to
format instructions embedded in parameter descriptions, such as enclosing
values in double quotes or using ISO date formats.
We introduce IFEval-FC, a benchmark inspired by IFEval (arXiv:2311.07911)
that assesses precise instruction following in function calling. IFEval-FC
encodes verifiable formats directly within JSON schema descriptions, for
example specifying that a value must not contain punctuation. It includes 750
test cases, each consisting of a function with an embedded format for one of
its input parameters and a corresponding user query. Evaluation is fully
algorithmic, ensuring objectivity, reproducibility, and scalability.
Our results show that even state-of-the-art proprietary models, including
GPT-5 and Claude 4.1 Opus, frequently fail to follow basic formatting rules,
highlighting a practical limitation for real-world agent systems. The complete
codebase and data are publicly available at
https://github.com/Skripkon/IFEval-FC.