Generación de Instrucciones Lógicas Complejas
Complex Logical Instruction Generation
August 12, 2025
Autores: Mian Zhang, Shujian Liu, Sixun Dong, Ming Yin, Yebowen Hu, Xun Wang, Steven Ma, Song Wang, Sathish Reddy Indurthi, Haoyun Deng, Zhiyu Zoey Chen, Kaiqiang Song
cs.AI
Resumen
La capacidad de seguir instrucciones ha impulsado la era reciente de los Modelos de Lenguaje de Gran Escala (LLMs) y constituye la habilidad fundamental que sustenta capacidades más avanzadas, como el razonamiento y los comportamientos agentivos. A medida que las tareas se vuelven más desafiantes, las estructuras lógicas incrustadas en las instrucciones en lenguaje natural se tornan cada vez más intrincadas. Sin embargo, el desempeño de los LLMs en instrucciones ricas en lógica sigue siendo poco explorado. Proponemos LogicIFGen y LogicIFEval. LogicIFGen es un marco escalable y automatizado para generar instrucciones verificables a partir de funciones de código, que pueden expresar de manera natural lógica compleja, como condicionales, anidamientos, recursión y llamadas a funciones. Además, seleccionamos una colección de funciones de código complejas y utilizamos LogicIFGen para construir LogicIFEval, un benchmark que comprende 426 instrucciones verificables y ricas en lógica. Nuestros experimentos demuestran que los LLMs más avanzados actualmente aún tienen dificultades para seguir correctamente las instrucciones en LogicIFEval. La mayoría de los LLMs solo pueden seguir menos del 60% de las instrucciones, lo que revela deficiencias significativas en su capacidad para seguir instrucciones. Código y Benchmark: https://github.com/mianzhang/LogicIF
English
Instruction following has catalyzed the recent era of Large Language Models
(LLMs) and is the foundational skill underpinning more advanced capabilities
such as reasoning and agentic behaviors. As tasks grow more challenging, the
logic structures embedded in natural language instructions becomes increasingly
intricate. However, how well LLMs perform on such logic-rich instructions
remains under-explored. We propose LogicIFGen and LogicIFEval. LogicIFGen is a
scalable, automated framework for generating verifiable instructions from code
functions, which can naturally express rich logic such as conditionals,
nesting, recursion, and function calls. We further curate a collection of
complex code functions and use LogicIFGen to construct LogicIFEval, a benchmark
comprising 426 verifiable logic-rich instructions. Our experiments demonstrate
that current state-of-the-art LLMs still struggle to correctly follow the
instructions in LogicIFEval. Most LLMs can only follow fewer than 60% of the
instructions, revealing significant deficiencies in the instruction-following
ability. Code and Benchmark: https://github.com/mianzhang/LogicIF