Valutazione del Rispetto delle Istruzioni nel Richiamo di Funzioni per Modelli Linguistici di Grande Dimensione
Instruction-Following Evaluation in Function Calling for Large Language Models
September 22, 2025
Autori: Nikolai Skripko
cs.AI
Abstract
La capacità di chiamata di funzioni è una competenza fondamentale dei grandi modelli linguistici, essenziale per gli agenti di intelligenza artificiale. I benchmark esistenti, come il Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982) e ACEBench (arXiv:2501.12851), valutano la correttezza degli argomenti ma non testano l'aderenza alle istruzioni di formato incorporate nelle descrizioni dei parametri, come l'uso di virgolette doppie per racchiudere i valori o l'utilizzo di formati di data ISO.
Presentiamo IFEval-FC, un benchmark ispirato a IFEval (arXiv:2311.07911) che valuta il preciso rispetto delle istruzioni nelle chiamate di funzioni. IFEval-FC codifica formati verificabili direttamente all'interno delle descrizioni dello schema JSON, ad esempio specificando che un valore non deve contenere punteggiatura. Include 750 casi di test, ciascuno composto da una funzione con un formato incorporato per uno dei suoi parametri di input e una corrispondente query dell'utente. La valutazione è completamente algoritmica, garantendo oggettività, riproducibilità e scalabilità.
I nostri risultati mostrano che anche i modelli proprietari all'avanguardia, inclusi GPT-5 e Claude 4.1 Opus, spesso non riescono a seguire regole di formattazione di base, evidenziando una limitazione pratica per i sistemi di agenti nel mondo reale. Il codice completo e i dati sono pubblicamente disponibili all'indirizzo https://github.com/Skripkon/IFEval-FC.
English
Function calling is a core capability of large language models, essential for
AI agents. Existing benchmarks such as the Berkeley Function Calling
Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982), and ACEBench
(arXiv:2501.12851) evaluate argument correctness but do not test adherence to
format instructions embedded in parameter descriptions, such as enclosing
values in double quotes or using ISO date formats.
We introduce IFEval-FC, a benchmark inspired by IFEval (arXiv:2311.07911)
that assesses precise instruction following in function calling. IFEval-FC
encodes verifiable formats directly within JSON schema descriptions, for
example specifying that a value must not contain punctuation. It includes 750
test cases, each consisting of a function with an embedded format for one of
its input parameters and a corresponding user query. Evaluation is fully
algorithmic, ensuring objectivity, reproducibility, and scalability.
Our results show that even state-of-the-art proprietary models, including
GPT-5 and Claude 4.1 Opus, frequently fail to follow basic formatting rules,
highlighting a practical limitation for real-world agent systems. The complete
codebase and data are publicly available at
https://github.com/Skripkon/IFEval-FC.