ChatPaper.aiChatPaper

Avaliação de Seguimento de Instruções em Chamada de Função para Modelos de Linguagem de Grande Escala

Instruction-Following Evaluation in Function Calling for Large Language Models

September 22, 2025
Autores: Nikolai Skripko
cs.AI

Resumo

A chamada de funções é uma capacidade fundamental dos modelos de linguagem de grande escala, essencial para agentes de IA. Benchmarks existentes, como o Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982) e ACEBench (arXiv:2501.12851), avaliam a correção dos argumentos, mas não testam a adesão a instruções de formato embutidas nas descrições dos parâmetros, como a inclusão de valores entre aspas duplas ou o uso de formatos de data ISO. Apresentamos o IFEval-FC, um benchmark inspirado no IFEval (arXiv:2311.07911) que avalia o seguimento preciso de instruções na chamada de funções. O IFEval-FC codifica formatos verificáveis diretamente nas descrições do esquema JSON, por exemplo, especificando que um valor não deve conter pontuação. Ele inclui 750 casos de teste, cada um consistindo de uma função com um formato embutido para um de seus parâmetros de entrada e uma consulta de usuário correspondente. A avaliação é totalmente algorítmica, garantindo objetividade, reprodutibilidade e escalabilidade. Nossos resultados mostram que até mesmo os modelos proprietários mais avançados, incluindo GPT-5 e Claude 4.1 Opus, frequentemente falham em seguir regras básicas de formatação, destacando uma limitação prática para sistemas de agentes no mundo real. O código completo e os dados estão disponíveis publicamente em https://github.com/Skripkon/IFEval-FC.
English
Function calling is a core capability of large language models, essential for AI agents. Existing benchmarks such as the Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982), and ACEBench (arXiv:2501.12851) evaluate argument correctness but do not test adherence to format instructions embedded in parameter descriptions, such as enclosing values in double quotes or using ISO date formats. We introduce IFEval-FC, a benchmark inspired by IFEval (arXiv:2311.07911) that assesses precise instruction following in function calling. IFEval-FC encodes verifiable formats directly within JSON schema descriptions, for example specifying that a value must not contain punctuation. It includes 750 test cases, each consisting of a function with an embedded format for one of its input parameters and a corresponding user query. Evaluation is fully algorithmic, ensuring objectivity, reproducibility, and scalability. Our results show that even state-of-the-art proprietary models, including GPT-5 and Claude 4.1 Opus, frequently fail to follow basic formatting rules, highlighting a practical limitation for real-world agent systems. The complete codebase and data are publicly available at https://github.com/Skripkon/IFEval-FC.
PDF03September 29, 2025