Complexe Logische Instructiegeneratie
Complex Logical Instruction Generation
August 12, 2025
Auteurs: Mian Zhang, Shujian Liu, Sixun Dong, Ming Yin, Yebowen Hu, Xun Wang, Steven Ma, Song Wang, Sathish Reddy Indurthi, Haoyun Deng, Zhiyu Zoey Chen, Kaiqiang Song
cs.AI
Samenvatting
Het volgen van instructies heeft het recente tijdperk van Large Language Models (LLM's)
gekatalyseerd en is de fundamentele vaardigheid die meer geavanceerde mogelijkheden
ondersteunt, zoals redeneren en agent-achtig gedrag. Naarmate taken uitdagender worden,
worden de logische structuren die in natuurlijke taal-instructies zijn ingebed steeds
complexer. Hoe goed LLM's presteren op dergelijke logica-rijke instructies blijft echter
onderbelicht. Wij stellen LogicIFGen en LogicIFEval voor. LogicIFGen is een schaalbaar,
geautomatiseerd raamwerk voor het genereren van verifieerbare instructies uit codefuncties,
die op natuurlijke wijze rijke logica kunnen uitdrukken, zoals conditionele statements,
nesting, recursie en functie-aanroepen. We hebben verder een verzameling complexe
codefuncties samengesteld en LogicIFGen gebruikt om LogicIFEval te construeren, een
benchmark bestaande uit 426 verifieerbare logica-rijke instructies. Onze experimenten
tonen aan dat de huidige state-of-the-art LLM's nog steeds moeite hebben om de instructies
in LogicIFEval correct te volgen. De meeste LLM's kunnen slechts minder dan 60% van de
instructies correct volgen, wat significante tekortkomingen in het instructie-volgende
vermogen blootlegt. Code en Benchmark: https://github.com/mianzhang/LogicIF
English
Instruction following has catalyzed the recent era of Large Language Models
(LLMs) and is the foundational skill underpinning more advanced capabilities
such as reasoning and agentic behaviors. As tasks grow more challenging, the
logic structures embedded in natural language instructions becomes increasingly
intricate. However, how well LLMs perform on such logic-rich instructions
remains under-explored. We propose LogicIFGen and LogicIFEval. LogicIFGen is a
scalable, automated framework for generating verifiable instructions from code
functions, which can naturally express rich logic such as conditionals,
nesting, recursion, and function calls. We further curate a collection of
complex code functions and use LogicIFGen to construct LogicIFEval, a benchmark
comprising 426 verifiable logic-rich instructions. Our experiments demonstrate
that current state-of-the-art LLMs still struggle to correctly follow the
instructions in LogicIFEval. Most LLMs can only follow fewer than 60% of the
instructions, revealing significant deficiencies in the instruction-following
ability. Code and Benchmark: https://github.com/mianzhang/LogicIF