Генерация сложных логических инструкций
Complex Logical Instruction Generation
August 12, 2025
Авторы: Mian Zhang, Shujian Liu, Sixun Dong, Ming Yin, Yebowen Hu, Xun Wang, Steven Ma, Song Wang, Sathish Reddy Indurthi, Haoyun Deng, Zhiyu Zoey Chen, Kaiqiang Song
cs.AI
Аннотация
Следование инструкциям стало катализатором новой эры больших языковых моделей (LLM) и является базовым навыком, лежащим в основе более продвинутых способностей, таких как рассуждение и агентное поведение. По мере усложнения задач логические структуры, встроенные в инструкции на естественном языке, становятся всё более сложными. Однако то, насколько хорошо LLM справляются с такими инструкциями, насыщенными логикой, остаётся недостаточно изученным. Мы предлагаем LogicIFGen и LogicIFEval. LogicIFGen — это масштабируемая автоматизированная структура для генерации проверяемых инструкций из функций кода, которые могут естественным образом выражать сложную логику, такую как условные операторы, вложенные структуры, рекурсия и вызовы функций. Мы также создали коллекцию сложных функций кода и использовали LogicIFGen для построения LogicIFEval — эталона, включающего 426 проверяемых инструкций, насыщенных логикой. Наши эксперименты показывают, что современные LLM всё ещё испытывают трудности с правильным выполнением инструкций из LogicIFEval. Большинство моделей способны следовать менее чем 60% инструкций, что выявляет значительные недостатки в способности следовать инструкциям. Код и эталон: https://github.com/mianzhang/LogicIF
English
Instruction following has catalyzed the recent era of Large Language Models
(LLMs) and is the foundational skill underpinning more advanced capabilities
such as reasoning and agentic behaviors. As tasks grow more challenging, the
logic structures embedded in natural language instructions becomes increasingly
intricate. However, how well LLMs perform on such logic-rich instructions
remains under-explored. We propose LogicIFGen and LogicIFEval. LogicIFGen is a
scalable, automated framework for generating verifiable instructions from code
functions, which can naturally express rich logic such as conditionals,
nesting, recursion, and function calls. We further curate a collection of
complex code functions and use LogicIFGen to construct LogicIFEval, a benchmark
comprising 426 verifiable logic-rich instructions. Our experiments demonstrate
that current state-of-the-art LLMs still struggle to correctly follow the
instructions in LogicIFEval. Most LLMs can only follow fewer than 60% of the
instructions, revealing significant deficiencies in the instruction-following
ability. Code and Benchmark: https://github.com/mianzhang/LogicIF