ChatPaper.aiChatPaper

Valutazione del Rispetto delle Istruzioni nel Richiamo di Funzioni per Modelli Linguistici di Grande Dimensione

Instruction-Following Evaluation in Function Calling for Large Language Models

September 22, 2025
Autori: Nikolai Skripko
cs.AI

Abstract

La capacità di chiamata di funzioni è una competenza fondamentale dei grandi modelli linguistici, essenziale per gli agenti di intelligenza artificiale. I benchmark esistenti, come il Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982) e ACEBench (arXiv:2501.12851), valutano la correttezza degli argomenti ma non testano l'aderenza alle istruzioni di formato incorporate nelle descrizioni dei parametri, come l'uso di virgolette doppie per racchiudere i valori o l'utilizzo di formati di data ISO. Presentiamo IFEval-FC, un benchmark ispirato a IFEval (arXiv:2311.07911) che valuta il preciso rispetto delle istruzioni nelle chiamate di funzioni. IFEval-FC codifica formati verificabili direttamente all'interno delle descrizioni dello schema JSON, ad esempio specificando che un valore non deve contenere punteggiatura. Include 750 casi di test, ciascuno composto da una funzione con un formato incorporato per uno dei suoi parametri di input e una corrispondente query dell'utente. La valutazione è completamente algoritmica, garantendo oggettività, riproducibilità e scalabilità. I nostri risultati mostrano che anche i modelli proprietari all'avanguardia, inclusi GPT-5 e Claude 4.1 Opus, spesso non riescono a seguire regole di formattazione di base, evidenziando una limitazione pratica per i sistemi di agenti nel mondo reale. Il codice completo e i dati sono pubblicamente disponibili all'indirizzo https://github.com/Skripkon/IFEval-FC.
English
Function calling is a core capability of large language models, essential for AI agents. Existing benchmarks such as the Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982), and ACEBench (arXiv:2501.12851) evaluate argument correctness but do not test adherence to format instructions embedded in parameter descriptions, such as enclosing values in double quotes or using ISO date formats. We introduce IFEval-FC, a benchmark inspired by IFEval (arXiv:2311.07911) that assesses precise instruction following in function calling. IFEval-FC encodes verifiable formats directly within JSON schema descriptions, for example specifying that a value must not contain punctuation. It includes 750 test cases, each consisting of a function with an embedded format for one of its input parameters and a corresponding user query. Evaluation is fully algorithmic, ensuring objectivity, reproducibility, and scalability. Our results show that even state-of-the-art proprietary models, including GPT-5 and Claude 4.1 Opus, frequently fail to follow basic formatting rules, highlighting a practical limitation for real-world agent systems. The complete codebase and data are publicly available at https://github.com/Skripkon/IFEval-FC.
PDF03September 29, 2025