Bewertung der Befolgung von Anweisungen bei der Funktionsausführung in großen Sprachmodellen
Instruction-Following Evaluation in Function Calling for Large Language Models
September 22, 2025
papers.authors: Nikolai Skripko
cs.AI
papers.abstract
Funktionsaufrufe sind eine Kernfähigkeit großer Sprachmodelle und essenziell für KI-Agenten. Bestehende Benchmarks wie das Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982) und ACEBench (arXiv:2501.12851) bewerten die Korrektheit von Argumenten, testen jedoch nicht die Einhaltung von Formatierungsanweisungen, die in Parameterbeschreibungen eingebettet sind, wie z. B. das Einschließen von Werten in doppelte Anführungszeichen oder die Verwendung von ISO-Datumsformaten.
Wir stellen IFEval-FC vor, einen Benchmark, der von IFEval (arXiv:2311.07911) inspiriert ist und die präzise Befolgung von Anweisungen bei Funktionsaufrufen bewertet. IFEval-FC kodiert überprüfbare Formate direkt in JSON-Schema-Beschreibungen, indem beispielsweise festgelegt wird, dass ein Wert keine Satzzeichen enthalten darf. Es umfasst 750 Testfälle, die jeweils aus einer Funktion mit einem eingebetteten Format für einen ihrer Eingabeparameter und einer entsprechenden Benutzeranfrage bestehen. Die Auswertung erfolgt vollständig algorithmisch, wodurch Objektivität, Reproduzierbarkeit und Skalierbarkeit gewährleistet werden.
Unsere Ergebnisse zeigen, dass selbst proprietäre Modelle auf dem neuesten Stand der Technik, einschließlich GPT-5 und Claude 4.1 Opus, häufig grundlegende Formatierungsregeln nicht einhalten, was eine praktische Einschränkung für reale Agentensysteme verdeutlicht. Der vollständige Code und die Daten sind öffentlich unter https://github.com/Skripkon/IFEval-FC verfügbar.
English
Function calling is a core capability of large language models, essential for
AI agents. Existing benchmarks such as the Berkeley Function Calling
Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982), and ACEBench
(arXiv:2501.12851) evaluate argument correctness but do not test adherence to
format instructions embedded in parameter descriptions, such as enclosing
values in double quotes or using ISO date formats.
We introduce IFEval-FC, a benchmark inspired by IFEval (arXiv:2311.07911)
that assesses precise instruction following in function calling. IFEval-FC
encodes verifiable formats directly within JSON schema descriptions, for
example specifying that a value must not contain punctuation. It includes 750
test cases, each consisting of a function with an embedded format for one of
its input parameters and a corresponding user query. Evaluation is fully
algorithmic, ensuring objectivity, reproducibility, and scalability.
Our results show that even state-of-the-art proprietary models, including
GPT-5 and Claude 4.1 Opus, frequently fail to follow basic formatting rules,
highlighting a practical limitation for real-world agent systems. The complete
codebase and data are publicly available at
https://github.com/Skripkon/IFEval-FC.