RuleArena: Ein Benchmark für regelgeleitetes Schlussfolgern mit LLMs in realen Szenarien.
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios
December 12, 2024
Autoren: Ruiwen Zhou, Wenyue Hua, Liangming Pan, Sitao Cheng, Xiaobao Wu, En Yu, William Yang Wang
cs.AI
Zusammenfassung
Dieses Papier stellt RuleArena vor, einen neuen und anspruchsvollen Benchmark, der entwickelt wurde, um die Fähigkeit großer Sprachmodelle (LLMs) zu bewerten, komplexe, realweltliche Regeln im Denken zu befolgen. RuleArena umfasst drei praktische Bereiche - Fluggepäckgebühren, NBA-Transaktionen und Steuervorschriften - und bewertet die Fähigkeit von LLMs, komplexe natürlichsprachliche Anweisungen zu verarbeiten, die ein Verständnis des langen Kontexts, logisches Denken und genaue mathematische Berechnungen erfordern. Zwei wesentliche Merkmale unterscheiden RuleArena von traditionellen regelbasierten Denk-Benchmarks: (1) es geht über herkömmliche Darstellungen der Prädikatenlogik hinaus und (2) es ist in authentischen, praktischen Szenarien verankert, was Einblicke in die Eignung und Zuverlässigkeit von LLMs für realweltliche Anwendungen bietet. Unsere Ergebnisse zeigen mehrere bemerkenswerte Einschränkungen bei LLMs auf: (1) sie haben Schwierigkeiten, die geeigneten Regeln zu identifizieren und anzuwenden, da sie häufig durch ähnliche, aber unterschiedliche Vorschriften verwirrt werden, (2) sie können keine konsistenten, genauen mathematischen Berechnungen durchführen, selbst wenn sie die relevanten Regeln korrekt identifizieren, und (3) im Allgemeinen schneiden sie in dem Benchmark schlecht ab. Diese Ergebnisse verdeutlichen bedeutende Herausforderungen bei der Weiterentwicklung der regelgeleiteten Denkfähigkeiten von LLMs in realen Anwendungen.
English
This paper introduces RuleArena, a novel and challenging benchmark designed
to evaluate the ability of large language models (LLMs) to follow complex,
real-world rules in reasoning. Covering three practical domains -- airline
baggage fees, NBA transactions, and tax regulations -- RuleArena assesses LLMs'
proficiency in handling intricate natural language instructions that demand
long-context understanding, logical reasoning, and accurate mathematical
computation. Two key attributes distinguish RuleArena from traditional
rule-based reasoning benchmarks: (1) it extends beyond standard first-order
logic representations, and (2) it is grounded in authentic, practical
scenarios, providing insights into the suitability and reliability of LLMs for
real-world applications. Our findings reveal several notable limitations in
LLMs: (1) they struggle to identify and apply the appropriate rules, frequently
becoming confused by similar but distinct regulations, (2) they cannot
consistently perform accurate mathematical computations, even when they
correctly identify the relevant rules, and (3) in general, they perform poorly
in the benchmark. These results highlight significant challenges in advancing
LLMs' rule-guided reasoning capabilities in real-life applications.Summary
AI-Generated Summary