Evaluación de Seguimiento de Instrucciones en la Llamada de Funciones para Modelos de Lenguaje a Gran Escala
Instruction-Following Evaluation in Function Calling for Large Language Models
September 22, 2025
Autores: Nikolai Skripko
cs.AI
Resumen
La invocación de funciones es una capacidad fundamental de los modelos de lenguaje de gran escala, esencial para los agentes de IA. Los puntos de referencia existentes, como el Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982) y ACEBench (arXiv:2501.12851), evalúan la corrección de los argumentos, pero no prueban el cumplimiento de las instrucciones de formato incrustadas en las descripciones de los parámetros, como encerrar valores entre comillas dobles o utilizar formatos de fecha ISO.
Presentamos IFEval-FC, un punto de referencia inspirado en IFEval (arXiv:2311.07911) que evalúa el seguimiento preciso de instrucciones en la invocación de funciones. IFEval-FC codifica formatos verificables directamente dentro de las descripciones del esquema JSON, por ejemplo, especificando que un valor no debe contener puntuación. Incluye 750 casos de prueba, cada uno compuesto por una función con un formato incrustado para uno de sus parámetros de entrada y una consulta de usuario correspondiente. La evaluación es completamente algorítmica, garantizando objetividad, reproducibilidad y escalabilidad.
Nuestros resultados muestran que incluso los modelos propietarios más avanzados, como GPT-5 y Claude 4.1 Opus, con frecuencia no siguen reglas básicas de formato, lo que resalta una limitación práctica para los sistemas de agentes en el mundo real. El código completo y los datos están disponibles públicamente en https://github.com/Skripkon/IFEval-FC.
English
Function calling is a core capability of large language models, essential for
AI agents. Existing benchmarks such as the Berkeley Function Calling
Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982), and ACEBench
(arXiv:2501.12851) evaluate argument correctness but do not test adherence to
format instructions embedded in parameter descriptions, such as enclosing
values in double quotes or using ISO date formats.
We introduce IFEval-FC, a benchmark inspired by IFEval (arXiv:2311.07911)
that assesses precise instruction following in function calling. IFEval-FC
encodes verifiable formats directly within JSON schema descriptions, for
example specifying that a value must not contain punctuation. It includes 750
test cases, each consisting of a function with an embedded format for one of
its input parameters and a corresponding user query. Evaluation is fully
algorithmic, ensuring objectivity, reproducibility, and scalability.
Our results show that even state-of-the-art proprietary models, including
GPT-5 and Claude 4.1 Opus, frequently fail to follow basic formatting rules,
highlighting a practical limitation for real-world agent systems. The complete
codebase and data are publicly available at
https://github.com/Skripkon/IFEval-FC.