Evaluatie van Instructievolging in Functie-aanroepen voor Grote Taalmodellen

Samenvatting

Functie-aanroepen is een kernmogelijkheid van grote taalmodellen, essentieel voor AI-agenten. Bestaande benchmarks zoals het Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982) en ACEBench (arXiv:2501.12851) evalueren de correctheid van argumenten, maar testen niet de naleving van formaatinstructies die zijn ingebed in parameterbeschrijvingen, zoals het plaatsen van waarden tussen dubbele aanhalingstekens of het gebruik van ISO-datumformaten. Wij introduceren IFEval-FC, een benchmark geïnspireerd door IFEval (arXiv:2311.07911) die het nauwkeurig opvolgen van instructies bij functie-aanroepen beoordeelt. IFEval-FC codeert verifieerbare formaten direct binnen JSON-schemabeschrijvingen, bijvoorbeeld door te specificeren dat een waarde geen leestekens mag bevatten. Het omvat 750 testgevallen, elk bestaande uit een functie met een ingebed formaat voor een van zijn invoerparameters en een bijbehorende gebruikersvraag. De evaluatie is volledig algoritmisch, wat objectiviteit, reproduceerbaarheid en schaalbaarheid garandeert. Onze resultaten tonen aan dat zelfs state-of-the-art propriëtaire modellen, waaronder GPT-5 en Claude 4.1 Opus, vaak falen in het volgen van basisformatteringsregels, wat een praktische beperking voor real-world agentsystemen benadrukt. De volledige codebase en gegevens zijn openbaar beschikbaar op https://github.com/Skripkon/IFEval-FC.

English

Function calling is a core capability of large language models, essential for AI agents. Existing benchmarks such as the Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982), and ACEBench (arXiv:2501.12851) evaluate argument correctness but do not test adherence to format instructions embedded in parameter descriptions, such as enclosing values in double quotes or using ISO date formats. We introduce IFEval-FC, a benchmark inspired by IFEval (arXiv:2311.07911) that assesses precise instruction following in function calling. IFEval-FC encodes verifiable formats directly within JSON schema descriptions, for example specifying that a value must not contain punctuation. It includes 750 test cases, each consisting of a function with an embedded format for one of its input parameters and a corresponding user query. Evaluation is fully algorithmic, ensuring objectivity, reproducibility, and scalability. Our results show that even state-of-the-art proprietary models, including GPT-5 and Claude 4.1 Opus, frequently fail to follow basic formatting rules, highlighting a practical limitation for real-world agent systems. The complete codebase and data are publicly available at https://github.com/Skripkon/IFEval-FC.

Evaluatie van Instructievolging in Functie-aanroepen voor Grote Taalmodellen

Instruction-Following Evaluation in Function Calling for Large Language Models

Samenvatting

Support