RuleArena: набор данных для оценки правил управляемого рассуждения с LLM в реальных сценариях.
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios
December 12, 2024
Авторы: Ruiwen Zhou, Wenyue Hua, Liangming Pan, Sitao Cheng, Xiaobao Wu, En Yu, William Yang Wang
cs.AI
Аннотация
Этот документ представляет RuleArena, новый и сложный бенчмарк, разработанный для оценки способности крупных языковых моделей (LLM) следовать сложным правилам рассуждения в реальном мире. Охватывая три практических области - сборы за багаж в авиакомпаниях, транзакции НБА и налоговое законодательство - RuleArena оценивает умение LLM обращаться с сложными инструкциями на естественном языке, требующими понимания длинного контекста, логического рассуждения и точных математических вычислений. Два ключевых атрибута отличают RuleArena от традиционных бенчмарков на основе правил: (1) он выходит за рамки стандартных представлений логики первого порядка и (2) он основан на аутентичных, практических сценариях, предоставляя понимание о пригодности и надежности LLM для прикладных задач в реальном мире. Наши результаты показывают несколько значительных ограничений в LLM: (1) они испытывают затруднения в определении и применении соответствующих правил, часто путаясь из-за похожих, но различных нормативов, (2) они не могут последовательно выполнять точные математические вычисления, даже когда правильно определяют соответствующие правила, и (3) в целом показывают плохие результаты в бенчмарке. Эти результаты подчеркивают значительные вызовы в развитии способностей к рассуждению по правилам в LLM в прикладных ситуациях реальной жизни.
English
This paper introduces RuleArena, a novel and challenging benchmark designed
to evaluate the ability of large language models (LLMs) to follow complex,
real-world rules in reasoning. Covering three practical domains -- airline
baggage fees, NBA transactions, and tax regulations -- RuleArena assesses LLMs'
proficiency in handling intricate natural language instructions that demand
long-context understanding, logical reasoning, and accurate mathematical
computation. Two key attributes distinguish RuleArena from traditional
rule-based reasoning benchmarks: (1) it extends beyond standard first-order
logic representations, and (2) it is grounded in authentic, practical
scenarios, providing insights into the suitability and reliability of LLMs for
real-world applications. Our findings reveal several notable limitations in
LLMs: (1) they struggle to identify and apply the appropriate rules, frequently
becoming confused by similar but distinct regulations, (2) they cannot
consistently perform accurate mathematical computations, even when they
correctly identify the relevant rules, and (3) in general, they perform poorly
in the benchmark. These results highlight significant challenges in advancing
LLMs' rule-guided reasoning capabilities in real-life applications.Summary
AI-Generated Summary