Geração de Instruções Lógicas Complexas
Complex Logical Instruction Generation
August 12, 2025
Autores: Mian Zhang, Shujian Liu, Sixun Dong, Ming Yin, Yebowen Hu, Xun Wang, Steven Ma, Song Wang, Sathish Reddy Indurthi, Haoyun Deng, Zhiyu Zoey Chen, Kaiqiang Song
cs.AI
Resumo
A capacidade de seguir instruções tem catalisado a era recente dos Modelos de Linguagem de Grande Escala (LLMs) e é a habilidade fundamental que sustenta capacidades mais avançadas, como raciocínio e comportamentos agentivos. À medida que as tarefas se tornam mais desafiadoras, as estruturas lógicas embutidas nas instruções em linguagem natural tornam-se cada vez mais complexas. No entanto, o desempenho dos LLMs em instruções ricas em lógica ainda é pouco explorado. Propomos o LogicIFGen e o LogicIFEval. O LogicIFGen é uma estrutura escalável e automatizada para gerar instruções verificáveis a partir de funções de código, que podem expressar naturalmente lógica rica, como condicionais, aninhamento, recursão e chamadas de funções. Além disso, selecionamos uma coleção de funções de código complexas e usamos o LogicIFGen para construir o LogicIFEval, um benchmark composto por 426 instruções verificáveis e ricas em lógica. Nossos experimentos demonstram que os LLMs de última geração ainda têm dificuldade em seguir corretamente as instruções do LogicIFEval. A maioria dos LLMs consegue seguir menos de 60% das instruções, revelando deficiências significativas na capacidade de seguir instruções. Código e Benchmark: https://github.com/mianzhang/LogicIF
English
Instruction following has catalyzed the recent era of Large Language Models
(LLMs) and is the foundational skill underpinning more advanced capabilities
such as reasoning and agentic behaviors. As tasks grow more challenging, the
logic structures embedded in natural language instructions becomes increasingly
intricate. However, how well LLMs perform on such logic-rich instructions
remains under-explored. We propose LogicIFGen and LogicIFEval. LogicIFGen is a
scalable, automated framework for generating verifiable instructions from code
functions, which can naturally express rich logic such as conditionals,
nesting, recursion, and function calls. We further curate a collection of
complex code functions and use LogicIFGen to construct LogicIFEval, a benchmark
comprising 426 verifiable logic-rich instructions. Our experiments demonstrate
that current state-of-the-art LLMs still struggle to correctly follow the
instructions in LogicIFEval. Most LLMs can only follow fewer than 60% of the
instructions, revealing significant deficiencies in the instruction-following
ability. Code and Benchmark: https://github.com/mianzhang/LogicIF