RuleArena: Een benchmark voor regelgestuurde redenering met LLM's in real-world scenario's.
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios
December 12, 2024
Auteurs: Ruiwen Zhou, Wenyue Hua, Liangming Pan, Sitao Cheng, Xiaobao Wu, En Yu, William Yang Wang
cs.AI
Samenvatting
Dit artikel introduceert RuleArena, een nieuw en uitdagend benchmark ontworpen om de vaardigheid van grote taalmodellen (GTM's) te evalueren in het volgen van complexe, real-world regels in redenering. RuleArena bestrijkt drie praktische domeinen - luchtvaartbagagekosten, NBA-transacties en belastingvoorschriften - en beoordeelt de bekwaamheid van GTM's in het omgaan met ingewikkelde natuurlijke taalinstructies die lang-contextueel begrip, logisch redeneren en nauwkeurige wiskundige berekeningen vereisen. Twee belangrijke kenmerken onderscheiden RuleArena van traditionele op regels gebaseerde redeneerbenchmarks: (1) het gaat verder dan standaard eerstegraads logische representaties, en (2) het is gebaseerd op authentieke, praktische scenario's, wat inzicht biedt in de geschiktheid en betrouwbaarheid van GTM's voor real-world toepassingen. Onze bevindingen onthullen verschillende opmerkelijke beperkingen in GTM's: (1) ze hebben moeite met het identificeren en toepassen van de juiste regels, vaak in de war rakend door vergelijkbare maar onderscheidende voorschriften, (2) ze kunnen niet consistent nauwkeurige wiskundige berekeningen uitvoeren, zelfs wanneer ze de relevante regels correct identificeren, en (3) over het algemeen presteren ze slecht in de benchmark. Deze resultaten benadrukken aanzienlijke uitdagingen bij het verbeteren van de op regels gebaseerde redeneervaardigheden van GTM's in real-life toepassingen.
English
This paper introduces RuleArena, a novel and challenging benchmark designed
to evaluate the ability of large language models (LLMs) to follow complex,
real-world rules in reasoning. Covering three practical domains -- airline
baggage fees, NBA transactions, and tax regulations -- RuleArena assesses LLMs'
proficiency in handling intricate natural language instructions that demand
long-context understanding, logical reasoning, and accurate mathematical
computation. Two key attributes distinguish RuleArena from traditional
rule-based reasoning benchmarks: (1) it extends beyond standard first-order
logic representations, and (2) it is grounded in authentic, practical
scenarios, providing insights into the suitability and reliability of LLMs for
real-world applications. Our findings reveal several notable limitations in
LLMs: (1) they struggle to identify and apply the appropriate rules, frequently
becoming confused by similar but distinct regulations, (2) they cannot
consistently perform accurate mathematical computations, even when they
correctly identify the relevant rules, and (3) in general, they perform poorly
in the benchmark. These results highlight significant challenges in advancing
LLMs' rule-guided reasoning capabilities in real-life applications.