Evaluación de Seguimiento de Instrucciones en la Llamada de Funciones para Modelos de Lenguaje a Gran Escala

Resumen

La invocación de funciones es una capacidad fundamental de los modelos de lenguaje de gran escala, esencial para los agentes de IA. Los puntos de referencia existentes, como el Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982) y ACEBench (arXiv:2501.12851), evalúan la corrección de los argumentos, pero no prueban el cumplimiento de las instrucciones de formato incrustadas en las descripciones de los parámetros, como encerrar valores entre comillas dobles o utilizar formatos de fecha ISO. Presentamos IFEval-FC, un punto de referencia inspirado en IFEval (arXiv:2311.07911) que evalúa el seguimiento preciso de instrucciones en la invocación de funciones. IFEval-FC codifica formatos verificables directamente dentro de las descripciones del esquema JSON, por ejemplo, especificando que un valor no debe contener puntuación. Incluye 750 casos de prueba, cada uno compuesto por una función con un formato incrustado para uno de sus parámetros de entrada y una consulta de usuario correspondiente. La evaluación es completamente algorítmica, garantizando objetividad, reproducibilidad y escalabilidad. Nuestros resultados muestran que incluso los modelos propietarios más avanzados, como GPT-5 y Claude 4.1 Opus, con frecuencia no siguen reglas básicas de formato, lo que resalta una limitación práctica para los sistemas de agentes en el mundo real. El código completo y los datos están disponibles públicamente en https://github.com/Skripkon/IFEval-FC.

English

Function calling is a core capability of large language models, essential for AI agents. Existing benchmarks such as the Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982), and ACEBench (arXiv:2501.12851) evaluate argument correctness but do not test adherence to format instructions embedded in parameter descriptions, such as enclosing values in double quotes or using ISO date formats. We introduce IFEval-FC, a benchmark inspired by IFEval (arXiv:2311.07911) that assesses precise instruction following in function calling. IFEval-FC encodes verifiable formats directly within JSON schema descriptions, for example specifying that a value must not contain punctuation. It includes 750 test cases, each consisting of a function with an embedded format for one of its input parameters and a corresponding user query. Evaluation is fully algorithmic, ensuring objectivity, reproducibility, and scalability. Our results show that even state-of-the-art proprietary models, including GPT-5 and Claude 4.1 Opus, frequently fail to follow basic formatting rules, highlighting a practical limitation for real-world agent systems. The complete codebase and data are publicly available at https://github.com/Skripkon/IFEval-FC.

Evaluación de Seguimiento de Instrucciones en la Llamada de Funciones para Modelos de Lenguaje a Gran Escala

Instruction-Following Evaluation in Function Calling for Large Language Models

Resumen

Support