RuleArena: Un banco de pruebas para el razonamiento guiado por reglas con LLMs en escenarios del mundo real
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios
December 12, 2024
Autores: Ruiwen Zhou, Wenyue Hua, Liangming Pan, Sitao Cheng, Xiaobao Wu, En Yu, William Yang Wang
cs.AI
Resumen
Este documento presenta RuleArena, un nuevo y desafiante banco de pruebas diseñado para evaluar la capacidad de los grandes modelos de lenguaje (LLMs) para seguir reglas complejas del mundo real en el razonamiento. Cubriendo tres dominios prácticos -- tarifas de equipaje aéreo, transacciones de la NBA y regulaciones fiscales -- RuleArena evalúa la competencia de los LLMs en el manejo de instrucciones intrincadas en lenguaje natural que requieren comprensión de contexto extenso, razonamiento lógico y cálculos matemáticos precisos. Dos atributos clave distinguen a RuleArena de los bancos de pruebas tradicionales de razonamiento basado en reglas: (1) se extiende más allá de las representaciones lógicas de primer orden estándar, y (2) se fundamenta en escenarios auténticos y prácticos, proporcionando información sobre la idoneidad y confiabilidad de los LLMs para aplicaciones del mundo real. Nuestros hallazgos revelan varias limitaciones notables en los LLMs: (1) tienen dificultades para identificar y aplicar las reglas apropiadas, a menudo confundiéndose con regulaciones similares pero distintas, (2) no pueden realizar cálculos matemáticos precisos de manera consistente, incluso cuando identifican correctamente las reglas relevantes, y (3) en general, tienen un desempeño deficiente en el banco de pruebas. Estos resultados resaltan desafíos significativos en el avance de las capacidades de razonamiento guiado por reglas de los LLMs en aplicaciones de la vida real.
English
This paper introduces RuleArena, a novel and challenging benchmark designed
to evaluate the ability of large language models (LLMs) to follow complex,
real-world rules in reasoning. Covering three practical domains -- airline
baggage fees, NBA transactions, and tax regulations -- RuleArena assesses LLMs'
proficiency in handling intricate natural language instructions that demand
long-context understanding, logical reasoning, and accurate mathematical
computation. Two key attributes distinguish RuleArena from traditional
rule-based reasoning benchmarks: (1) it extends beyond standard first-order
logic representations, and (2) it is grounded in authentic, practical
scenarios, providing insights into the suitability and reliability of LLMs for
real-world applications. Our findings reveal several notable limitations in
LLMs: (1) they struggle to identify and apply the appropriate rules, frequently
becoming confused by similar but distinct regulations, (2) they cannot
consistently perform accurate mathematical computations, even when they
correctly identify the relevant rules, and (3) in general, they perform poorly
in the benchmark. These results highlight significant challenges in advancing
LLMs' rule-guided reasoning capabilities in real-life applications.Summary
AI-Generated Summary