Génération d'Instructions Logiques Complexes
Complex Logical Instruction Generation
August 12, 2025
papers.authors: Mian Zhang, Shujian Liu, Sixun Dong, Ming Yin, Yebowen Hu, Xun Wang, Steven Ma, Song Wang, Sathish Reddy Indurthi, Haoyun Deng, Zhiyu Zoey Chen, Kaiqiang Song
cs.AI
papers.abstract
La capacité à suivre des instructions a catalysé l'ère récente des modèles de langage à grande échelle (LLMs) et constitue la compétence fondamentale sous-tendant des capacités plus avancées telles que le raisonnement et les comportements agentiques. À mesure que les tâches deviennent plus complexes, les structures logiques intégrées dans les instructions en langage naturel deviennent de plus en plus complexes. Cependant, la performance des LLMs sur de telles instructions riches en logique reste peu explorée. Nous proposons LogicIFGen et LogicIFEval. LogicIFGen est un cadre automatisé et évolutif pour générer des instructions vérifiables à partir de fonctions de code, qui peuvent exprimer naturellement une logique riche telle que les conditionnelles, l'imbrication, la récursion et les appels de fonctions. Nous avons également constitué une collection de fonctions de code complexes et utilisé LogicIFGen pour construire LogicIFEval, un benchmark comprenant 426 instructions vérifiables riches en logique. Nos expériences démontrent que les LLMs actuels les plus performants peinent encore à suivre correctement les instructions de LogicIFEval. La plupart des LLMs ne parviennent à suivre que moins de 60 % des instructions, révélant des lacunes significatives dans leur capacité à suivre des instructions. Code et Benchmark : https://github.com/mianzhang/LogicIF
English
Instruction following has catalyzed the recent era of Large Language Models
(LLMs) and is the foundational skill underpinning more advanced capabilities
such as reasoning and agentic behaviors. As tasks grow more challenging, the
logic structures embedded in natural language instructions becomes increasingly
intricate. However, how well LLMs perform on such logic-rich instructions
remains under-explored. We propose LogicIFGen and LogicIFEval. LogicIFGen is a
scalable, automated framework for generating verifiable instructions from code
functions, which can naturally express rich logic such as conditionals,
nesting, recursion, and function calls. We further curate a collection of
complex code functions and use LogicIFGen to construct LogicIFEval, a benchmark
comprising 426 verifiable logic-rich instructions. Our experiments demonstrate
that current state-of-the-art LLMs still struggle to correctly follow the
instructions in LogicIFEval. Most LLMs can only follow fewer than 60% of the
instructions, revealing significant deficiencies in the instruction-following
ability. Code and Benchmark: https://github.com/mianzhang/LogicIF