ChatPaper.aiChatPaper

RuleArena : Un banc d'essai pour le raisonnement guidé par des règles avec des LLM dans des scénarios du monde réel

RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios

December 12, 2024
Auteurs: Ruiwen Zhou, Wenyue Hua, Liangming Pan, Sitao Cheng, Xiaobao Wu, En Yu, William Yang Wang
cs.AI

Résumé

Cet article présente RuleArena, un nouveau et stimulant banc d'essai conçu pour évaluer la capacité des grands modèles de langage (GML) à suivre des règles complexes du monde réel en matière de raisonnement. Couvrant trois domaines pratiques - les frais de bagages aériens, les transactions de la NBA et les réglementations fiscales - RuleArena évalue la compétence des GML à traiter des instructions complexes en langage naturel exigeant une compréhension de long contexte, un raisonnement logique et des calculs mathématiques précis. Deux caractéristiques clés distinguent RuleArena des bancs d'essai traditionnels de raisonnement basé sur des règles : (1) il va au-delà des représentations logiques du premier ordre standard, et (2) il est ancré dans des scénarios authentiques et pratiques, offrant des perspectives sur l'adéquation et la fiabilité des GML pour des applications du monde réel. Nos résultats révèlent plusieurs limitations notables des GML : (1) ils ont du mal à identifier et appliquer les règles appropriées, étant fréquemment perturbés par des réglementations similaires mais distinctes, (2) ils ne peuvent pas effectuer de manière cohérente des calculs mathématiques précis, même lorsqu'ils identifient correctement les règles pertinentes, et (3) en général, ils obtiennent de mauvais résultats dans le banc d'essai. Ces résultats mettent en lumière des défis importants pour améliorer les capacités de raisonnement guidé par les règles des GML dans des applications de la vie réelle.
English
This paper introduces RuleArena, a novel and challenging benchmark designed to evaluate the ability of large language models (LLMs) to follow complex, real-world rules in reasoning. Covering three practical domains -- airline baggage fees, NBA transactions, and tax regulations -- RuleArena assesses LLMs' proficiency in handling intricate natural language instructions that demand long-context understanding, logical reasoning, and accurate mathematical computation. Two key attributes distinguish RuleArena from traditional rule-based reasoning benchmarks: (1) it extends beyond standard first-order logic representations, and (2) it is grounded in authentic, practical scenarios, providing insights into the suitability and reliability of LLMs for real-world applications. Our findings reveal several notable limitations in LLMs: (1) they struggle to identify and apply the appropriate rules, frequently becoming confused by similar but distinct regulations, (2) they cannot consistently perform accurate mathematical computations, even when they correctly identify the relevant rules, and (3) in general, they perform poorly in the benchmark. These results highlight significant challenges in advancing LLMs' rule-guided reasoning capabilities in real-life applications.

Summary

AI-Generated Summary

PDF102December 13, 2024