DeonticBench: Бенчмарк для логического вывода на основе правил
DeonticBench: A Benchmark for Reasoning over Rules
April 6, 2026
Авторы: Guangyao Dou, Luis Brena, Akhil Deo, William Jurayj, Jingyu Zhang, Nils Holzenberger, Benjamin Van Durme
cs.AI
Аннотация
Логический вывод на основе сложных, зависящих от контекста правил остается сложной задачей для больших языковых моделей (LLM). В правовой и политической сферах это проявляется как деонтическое рассуждение: рассуждение об обязанностях, разрешениях и запретах в рамках явных правил. В то время как многие современные эталонные тесты делают акцент на математических рассуждениях в коротком контексте, меньшее их число сосредоточено на деонтическом рассуждении в длинном контексте с высокими ставками. Для устранения этого пробела мы представляем DEONTICBENCH — эталонный набор из 6232 задач из области федерального налогообложения США, политики авиакомпаний в отношении багажа, иммиграционного администрирования США и жилищного права штатов США. К этим задачам можно подходить несколькими способами, включая прямое рассуждение на естественном языке или с помощью символьных вычислений. Помимо свободного пошагового рассуждения, DEONTICBENCH позволяет использовать опциональный подход на основе решателя, при котором модели переводят законодательные нормы и факты дела в исполняемый код на Prolog, что приводит к формальной интерпретации проблемы и явной трассировке программы. Мы публикуем эталонные программы на Prolog для всех примеров. Среди передовых LLM и кодогенерирующих моделей наилучшая производительность на наиболее сложном подмножестве достигает лишь 44,4% на SARA Numeric и 46,6 macro-F1 на Housing. Мы также исследуем обучение с помощью контролируемой тонкой настройки и обучения с подкреплением для генерации символьных программ. Хотя обучение улучшает качество генерации кода на Prolog, современные методы RL все еще не позволяют надежно решать эти задачи. В целом, DEONTICBENCH предоставляет эталон для изучения контекстуально-обусловленного логического вывода правил в реальных предметных областях как в символьных, так и в несимвольных условиях.
English
Reasoning with complex, context-specific rules remains challenging for large language models (LLMs). In legal and policy settings, this manifests as deontic reasoning: reasoning about obligations, permissions, and prohibitions under explicit rules. While many recent benchmarks emphasize short-context mathematical reasoning, fewer focus on long-context, high-stakes deontic reasoning. To address this gap, we introduce DEONTICBENCH, a benchmark of 6,232 tasks across U.S. federal taxes, airline baggage policies, U.S. immigration administration, and U.S. state housing law. These tasks can be approached in multiple ways, including direct reasoning in language or with the aid of symbolic computation. Besides free-form chain-of-thought reasoning, DEONTICBENCH enables an optional solver-based workflow in which models translate statutes and case facts into executable Prolog, leading to formal problem interpretations and an explicit program trace. We release reference Prolog programs for all instances. Across frontier LLMs and coding models, best hard-subset performance reaches only 44.4% on SARA Numeric and 46.6 macro-F1 on Housing. We further study training with supervised fine-tuning and reinforcement learning for symbolic program generation. Although training improves Prolog generation quality, current RL methods still fail to solve these tasks reliably. Overall, DEONTICBENCH provides a benchmark for studying context-grounded rule reasoning in real-world domains under both symbolic and non-symbolic settings.