DeonticBench: ルール推論のためのベンチマーク
DeonticBench: A Benchmark for Reasoning over Rules
April 6, 2026
著者: Guangyao Dou, Luis Brena, Akhil Deo, William Jurayj, Jingyu Zhang, Nils Holzenberger, Benjamin Van Durme
cs.AI
要旨
複雑で文脈依存的な規則を用いた推論は、大規模言語モデル(LLM)にとって依然として困難な課題である。法的・政策的な設定では、これは義務論理推論として現れる。すなわち、明示的な規則に基づく義務、許可、禁止に関する推論である。近年多くのベンチマークが短い文脈での数学的推論を重視する中、長い文脈を要する高リスクの義務論理推論に焦点を当てたものは少ない。このギャップを埋めるため、我々はDEONTICBENCHを提案する。これは、米国連邦税制、航空会社の手荷物規定、米国移民管理、米国州住宅法にまたがる6,232のタスクからなるベンチマークである。これらのタスクは、言語による直接推論や記号的計算の利用を含む複数の方法で取り組むことができる。自由形式の連鎖的思考(Chain-of-Thought)推論に加え、DEONTICBENCHではオプションとして、モデルが法令と事例の事実を実行可能なPrologコードに変換し、それにより形式的な問題解釈と明示的なプログラムトレースを得る、ソルバーベースのワークフローを可能にしている。全てのインスタンスに対する参照用Prologプログラムを公開する。最先端のLLMおよびコーディングモデルにおいても、困難なサブセットでの最高性能は、SARA Numericで44.4%、HousingでマクロF1スコア46.6%に留まっている。さらに、教師ありファインチューニングと強化学習を用いた、記号的プログラム生成のための訓練についても検討する。訓練によってProlog生成の質は向上するものの、現在の強化学習手法ではこれらのタスクを確実に解決することは依然としてできない。全体として、DEONTICBENCHは、現実世界の領域における文脈に基づいた規則推論を、記号的および非記号的設定の両方で研究するためのベンチマークを提供する。
English
Reasoning with complex, context-specific rules remains challenging for large language models (LLMs). In legal and policy settings, this manifests as deontic reasoning: reasoning about obligations, permissions, and prohibitions under explicit rules. While many recent benchmarks emphasize short-context mathematical reasoning, fewer focus on long-context, high-stakes deontic reasoning. To address this gap, we introduce DEONTICBENCH, a benchmark of 6,232 tasks across U.S. federal taxes, airline baggage policies, U.S. immigration administration, and U.S. state housing law. These tasks can be approached in multiple ways, including direct reasoning in language or with the aid of symbolic computation. Besides free-form chain-of-thought reasoning, DEONTICBENCH enables an optional solver-based workflow in which models translate statutes and case facts into executable Prolog, leading to formal problem interpretations and an explicit program trace. We release reference Prolog programs for all instances. Across frontier LLMs and coding models, best hard-subset performance reaches only 44.4% on SARA Numeric and 46.6 macro-F1 on Housing. We further study training with supervised fine-tuning and reinforcement learning for symbolic program generation. Although training improves Prolog generation quality, current RL methods still fail to solve these tasks reliably. Overall, DEONTICBENCH provides a benchmark for studying context-grounded rule reasoning in real-world domains under both symbolic and non-symbolic settings.