Avaliação de Seguimento de Instruções em Chamada de Função para Modelos de Linguagem de Grande Escala
Instruction-Following Evaluation in Function Calling for Large Language Models
September 22, 2025
Autores: Nikolai Skripko
cs.AI
Resumo
A chamada de funções é uma capacidade fundamental dos modelos de linguagem de grande escala, essencial para agentes de IA. Benchmarks existentes, como o Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982) e ACEBench (arXiv:2501.12851), avaliam a correção dos argumentos, mas não testam a adesão a instruções de formato embutidas nas descrições dos parâmetros, como a inclusão de valores entre aspas duplas ou o uso de formatos de data ISO.
Apresentamos o IFEval-FC, um benchmark inspirado no IFEval (arXiv:2311.07911) que avalia o seguimento preciso de instruções na chamada de funções. O IFEval-FC codifica formatos verificáveis diretamente nas descrições do esquema JSON, por exemplo, especificando que um valor não deve conter pontuação. Ele inclui 750 casos de teste, cada um consistindo de uma função com um formato embutido para um de seus parâmetros de entrada e uma consulta de usuário correspondente. A avaliação é totalmente algorítmica, garantindo objetividade, reprodutibilidade e escalabilidade.
Nossos resultados mostram que até mesmo os modelos proprietários mais avançados, incluindo GPT-5 e Claude 4.1 Opus, frequentemente falham em seguir regras básicas de formatação, destacando uma limitação prática para sistemas de agentes no mundo real. O código completo e os dados estão disponíveis publicamente em https://github.com/Skripkon/IFEval-FC.
English
Function calling is a core capability of large language models, essential for
AI agents. Existing benchmarks such as the Berkeley Function Calling
Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982), and ACEBench
(arXiv:2501.12851) evaluate argument correctness but do not test adherence to
format instructions embedded in parameter descriptions, such as enclosing
values in double quotes or using ISO date formats.
We introduce IFEval-FC, a benchmark inspired by IFEval (arXiv:2311.07911)
that assesses precise instruction following in function calling. IFEval-FC
encodes verifiable formats directly within JSON schema descriptions, for
example specifying that a value must not contain punctuation. It includes 750
test cases, each consisting of a function with an embedded format for one of
its input parameters and a corresponding user query. Evaluation is fully
algorithmic, ensuring objectivity, reproducibility, and scalability.
Our results show that even state-of-the-art proprietary models, including
GPT-5 and Claude 4.1 Opus, frequently fail to follow basic formatting rules,
highlighting a practical limitation for real-world agent systems. The complete
codebase and data are publicly available at
https://github.com/Skripkon/IFEval-FC.