Generierung komplexer logischer Anweisungen
Complex Logical Instruction Generation
August 12, 2025
papers.authors: Mian Zhang, Shujian Liu, Sixun Dong, Ming Yin, Yebowen Hu, Xun Wang, Steven Ma, Song Wang, Sathish Reddy Indurthi, Haoyun Deng, Zhiyu Zoey Chen, Kaiqiang Song
cs.AI
papers.abstract
Die Befolgung von Anweisungen hat die jüngste Ära der Large Language Models (LLMs) vorangetrieben und ist die grundlegende Fähigkeit, die fortgeschrittenere Kompetenzen wie logisches Denken und agentenbasiertes Verhalten ermöglicht. Da Aufgaben zunehmend anspruchsvoller werden, werden die logischen Strukturen, die in natürlichen Sprachanweisungen eingebettet sind, immer komplexer. Dennoch ist die Frage, wie gut LLMs mit solchen logikreichen Anweisungen umgehen können, noch weitgehend unerforscht. Wir schlagen LogicIFGen und LogicIFEval vor. LogicIFGen ist ein skalierbares, automatisiertes Framework zur Generierung überprüfbarer Anweisungen aus Codefunktionen, die natürlicherweise reiche Logik wie Bedingungen, Verschachtelungen, Rekursionen und Funktionsaufrufe ausdrücken können. Wir haben zudem eine Sammlung komplexer Codefunktionen zusammengestellt und LogicIFGen verwendet, um LogicIFEval zu konstruieren, einen Benchmark, der 426 überprüfbare, logikreiche Anweisungen umfasst. Unsere Experimente zeigen, dass aktuelle state-of-the-art LLMs immer noch Schwierigkeiten haben, die Anweisungen in LogicIFEval korrekt zu befolgen. Die meisten LLMs können weniger als 60 % der Anweisungen korrekt befolgen, was erhebliche Defizite in der Fähigkeit zur Anweisungsbefolgung offenbart. Code und Benchmark: https://github.com/mianzhang/LogicIF
English
Instruction following has catalyzed the recent era of Large Language Models
(LLMs) and is the foundational skill underpinning more advanced capabilities
such as reasoning and agentic behaviors. As tasks grow more challenging, the
logic structures embedded in natural language instructions becomes increasingly
intricate. However, how well LLMs perform on such logic-rich instructions
remains under-explored. We propose LogicIFGen and LogicIFEval. LogicIFGen is a
scalable, automated framework for generating verifiable instructions from code
functions, which can naturally express rich logic such as conditionals,
nesting, recursion, and function calls. We further curate a collection of
complex code functions and use LogicIFGen to construct LogicIFEval, a benchmark
comprising 426 verifiable logic-rich instructions. Our experiments demonstrate
that current state-of-the-art LLMs still struggle to correctly follow the
instructions in LogicIFEval. Most LLMs can only follow fewer than 60% of the
instructions, revealing significant deficiencies in the instruction-following
ability. Code and Benchmark: https://github.com/mianzhang/LogicIF