Évaluation de la Suivi des Instructions dans l'Appel de Fonction pour les Grands Modèles de Langage
Instruction-Following Evaluation in Function Calling for Large Language Models
September 22, 2025
papers.authors: Nikolai Skripko
cs.AI
papers.abstract
L'appel de fonction est une capacité fondamentale des grands modèles de langage, essentielle pour les agents d'IA. Les benchmarks existants, tels que le Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982) et ACEBench (arXiv:2501.12851), évaluent la correction des arguments mais ne testent pas le respect des instructions de format intégrées dans les descriptions des paramètres, comme l'encadrement des valeurs entre guillemets doubles ou l'utilisation de formats de date ISO.
Nous introduisons IFEval-FC, un benchmark inspiré d'IFEval (arXiv:2311.07911) qui évalue le suivi précis des instructions dans l'appel de fonction. IFEval-FC encode des formats vérifiables directement dans les descriptions de schéma JSON, par exemple en spécifiant qu'une valeur ne doit pas contenir de ponctuation. Il comprend 750 cas de test, chacun consistant en une fonction avec un format intégré pour l'un de ses paramètres d'entrée et une requête utilisateur correspondante. L'évaluation est entièrement algorithmique, garantissant objectivité, reproductibilité et évolutivité.
Nos résultats montrent que même les modèles propriétaires les plus avancés, y compris GPT-5 et Claude 4.1 Opus, échouent fréquemment à suivre des règles de formatage de base, mettant en lumière une limitation pratique pour les systèmes d'agents en situation réelle. Le code source complet et les données sont disponibles publiquement à l'adresse suivante : https://github.com/Skripkon/IFEval-FC.
English
Function calling is a core capability of large language models, essential for
AI agents. Existing benchmarks such as the Berkeley Function Calling
Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982), and ACEBench
(arXiv:2501.12851) evaluate argument correctness but do not test adherence to
format instructions embedded in parameter descriptions, such as enclosing
values in double quotes or using ISO date formats.
We introduce IFEval-FC, a benchmark inspired by IFEval (arXiv:2311.07911)
that assesses precise instruction following in function calling. IFEval-FC
encodes verifiable formats directly within JSON schema descriptions, for
example specifying that a value must not contain punctuation. It includes 750
test cases, each consisting of a function with an embedded format for one of
its input parameters and a corresponding user query. Evaluation is fully
algorithmic, ensuring objectivity, reproducibility, and scalability.
Our results show that even state-of-the-art proprietary models, including
GPT-5 and Claude 4.1 Opus, frequently fail to follow basic formatting rules,
highlighting a practical limitation for real-world agent systems. The complete
codebase and data are publicly available at
https://github.com/Skripkon/IFEval-FC.