RuleArena: набор данных для оценки правил управляемого рассуждения с LLM в реальных сценариях.

Аннотация

Этот документ представляет RuleArena, новый и сложный бенчмарк, разработанный для оценки способности крупных языковых моделей (LLM) следовать сложным правилам рассуждения в реальном мире. Охватывая три практических области - сборы за багаж в авиакомпаниях, транзакции НБА и налоговое законодательство - RuleArena оценивает умение LLM обращаться с сложными инструкциями на естественном языке, требующими понимания длинного контекста, логического рассуждения и точных математических вычислений. Два ключевых атрибута отличают RuleArena от традиционных бенчмарков на основе правил: (1) он выходит за рамки стандартных представлений логики первого порядка и (2) он основан на аутентичных, практических сценариях, предоставляя понимание о пригодности и надежности LLM для прикладных задач в реальном мире. Наши результаты показывают несколько значительных ограничений в LLM: (1) они испытывают затруднения в определении и применении соответствующих правил, часто путаясь из-за похожих, но различных нормативов, (2) они не могут последовательно выполнять точные математические вычисления, даже когда правильно определяют соответствующие правила, и (3) в целом показывают плохие результаты в бенчмарке. Эти результаты подчеркивают значительные вызовы в развитии способностей к рассуждению по правилам в LLM в прикладных ситуациях реальной жизни.

English

This paper introduces RuleArena, a novel and challenging benchmark designed to evaluate the ability of large language models (LLMs) to follow complex, real-world rules in reasoning. Covering three practical domains -- airline baggage fees, NBA transactions, and tax regulations -- RuleArena assesses LLMs' proficiency in handling intricate natural language instructions that demand long-context understanding, logical reasoning, and accurate mathematical computation. Two key attributes distinguish RuleArena from traditional rule-based reasoning benchmarks: (1) it extends beyond standard first-order logic representations, and (2) it is grounded in authentic, practical scenarios, providing insights into the suitability and reliability of LLMs for real-world applications. Our findings reveal several notable limitations in LLMs: (1) they struggle to identify and apply the appropriate rules, frequently becoming confused by similar but distinct regulations, (2) they cannot consistently perform accurate mathematical computations, even when they correctly identify the relevant rules, and (3) in general, they perform poorly in the benchmark. These results highlight significant challenges in advancing LLMs' rule-guided reasoning capabilities in real-life applications.

RuleArena: набор данных для оценки правил управляемого рассуждения с LLM в реальных сценариях.

RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios

Аннотация

Support