ChatPaper.aiChatPaper

DeonticBench: 규칙 추론을 위한 벤치마크

DeonticBench: A Benchmark for Reasoning over Rules

April 6, 2026
저자: Guangyao Dou, Luis Brena, Akhil Deo, William Jurayj, Jingyu Zhang, Nils Holzenberger, Benjamin Van Durme
cs.AI

초록

대규모 언어 모델(LLM)에게 복잡하고 맥락 특정적인 규칙을 활용한 추론은 여전히 어려운 과제로 남아 있습니다. 법률 및 정책 환경에서는 이러한 어려움이 의무론적 추론, 즉 명시적 규칙 하에서의 의무, 권한, 금지 사항에 대한 추론으로 나타납니다. 최근 많은 벤치마크가 짧은 맥락의 수학적 추론에 중점을 두는 반면, 긴 맥락의 고위험 의무론적 추론에 초점을 맞춘 연구는 상대적으로 적습니다. 이러한 격차를 해소하기 위해 우리는 DEONTICBENCH를 소개합니다. 이 벤치마크는 미국 연방 세금, 항공사 수하물 정책, 미국 이민 행정, 미국 주 주택법 분야의 6,232개 과제로 구성됩니다. 이러한 과제는 언어를 통한 직접 추론이나 기호 계산을 활용하는 등 여러 방식으로 접근할 수 있습니다. 자유 형식의 사고 연쇄 추론 외에도, DEONTICBENCH는 모델이 법규와 사건 사실을 실행 가능한 Prolog 코드로 변환하여 형식적 문제 해석과 명시적 프로그램 추적을 가능하게 하는 선택적 솔버 기반 워크플로를 지원합니다. 우리는 모든 인스턴스에 대한 참조 Prolog 프로그램을 공개합니다. 최첨단 LLM 및 코딩 모델을 대상으로 한 평가에서 가장 어려운 하위 집단에 대한 최고 성능은 SARA Numeric에서 44.4%, Housing에서 macro-F1 기준 46.6%에 그쳤습니다. 우리는 또한 기호적 프로그램 생성을 위한 지도 미세 조정 및 강화 학습 훈련을 추가로 연구했습니다. 훈련을 통해 Prolog 생성 품질은 향상되었지만, 현재의 강화 학습 방법론으로는 이러한 과제를 안정적으로 해결하지 못했습니다. 전반적으로 DEONTICBENCH는 실제 영역에서 기호적 및 비기호적 환경 하에 맥락에 기반한 규칙 추론을 연구하기 위한 벤치마크를 제공합니다.
English
Reasoning with complex, context-specific rules remains challenging for large language models (LLMs). In legal and policy settings, this manifests as deontic reasoning: reasoning about obligations, permissions, and prohibitions under explicit rules. While many recent benchmarks emphasize short-context mathematical reasoning, fewer focus on long-context, high-stakes deontic reasoning. To address this gap, we introduce DEONTICBENCH, a benchmark of 6,232 tasks across U.S. federal taxes, airline baggage policies, U.S. immigration administration, and U.S. state housing law. These tasks can be approached in multiple ways, including direct reasoning in language or with the aid of symbolic computation. Besides free-form chain-of-thought reasoning, DEONTICBENCH enables an optional solver-based workflow in which models translate statutes and case facts into executable Prolog, leading to formal problem interpretations and an explicit program trace. We release reference Prolog programs for all instances. Across frontier LLMs and coding models, best hard-subset performance reaches only 44.4% on SARA Numeric and 46.6 macro-F1 on Housing. We further study training with supervised fine-tuning and reinforcement learning for symbolic program generation. Although training improves Prolog generation quality, current RL methods still fail to solve these tasks reliably. Overall, DEONTICBENCH provides a benchmark for studying context-grounded rule reasoning in real-world domains under both symbolic and non-symbolic settings.
PDF41April 10, 2026