Generazione di Istruzioni Logiche Complesse
Complex Logical Instruction Generation
August 12, 2025
Autori: Mian Zhang, Shujian Liu, Sixun Dong, Ming Yin, Yebowen Hu, Xun Wang, Steven Ma, Song Wang, Sathish Reddy Indurthi, Haoyun Deng, Zhiyu Zoey Chen, Kaiqiang Song
cs.AI
Abstract
La capacità di seguire istruzioni ha catalizzato l'era recente dei Large Language Models (LLM) ed è l'abilità fondamentale che sostiene capacità più avanzate come il ragionamento e i comportamenti agentici. Man mano che i compiti diventano più complessi, le strutture logiche incorporate nelle istruzioni in linguaggio naturale diventano sempre più intricate. Tuttavia, quanto bene i LLM performino su tali istruzioni ricche di logica rimane poco esplorato. Proponiamo LogicIFGen e LogicIFEval. LogicIFGen è un framework scalabile e automatizzato per generare istruzioni verificabili da funzioni di codice, che possono esprimere naturalmente una logica complessa come condizionali, annidamenti, ricorsioni e chiamate di funzioni. Inoltre, curiamo una raccolta di funzioni di codice complesse e utilizziamo LogicIFGen per costruire LogicIFEval, un benchmark composto da 426 istruzioni verificabili ricche di logica. I nostri esperimenti dimostrano che gli attuali LLM all'avanguardia continuano a lottare per seguire correttamente le istruzioni in LogicIFEval. La maggior parte dei LLM riesce a seguire meno del 60% delle istruzioni, rivelando significative carenze nella capacità di seguire le istruzioni. Codice e Benchmark: https://github.com/mianzhang/LogicIF
English
Instruction following has catalyzed the recent era of Large Language Models
(LLMs) and is the foundational skill underpinning more advanced capabilities
such as reasoning and agentic behaviors. As tasks grow more challenging, the
logic structures embedded in natural language instructions becomes increasingly
intricate. However, how well LLMs perform on such logic-rich instructions
remains under-explored. We propose LogicIFGen and LogicIFEval. LogicIFGen is a
scalable, automated framework for generating verifiable instructions from code
functions, which can naturally express rich logic such as conditionals,
nesting, recursion, and function calls. We further curate a collection of
complex code functions and use LogicIFGen to construct LogicIFEval, a benchmark
comprising 426 verifiable logic-rich instructions. Our experiments demonstrate
that current state-of-the-art LLMs still struggle to correctly follow the
instructions in LogicIFEval. Most LLMs can only follow fewer than 60% of the
instructions, revealing significant deficiencies in the instruction-following
ability. Code and Benchmark: https://github.com/mianzhang/LogicIF