DeonticBench: Ein Benchmark für das Schließen über Regeln

Zusammenfassung

Das Schließen mit komplexen, kontextspezifischen Regeln stellt nach wie vor eine Herausforderung für große Sprachmodelle (LLMs) dar. In rechtlichen und politischen Kontexten manifestiert sich dies als deontisches Schließen: das Schließen über Verpflichtungen, Erlaubnisse und Verbote gemäß expliziter Regeln. Während viele aktuelle Benchmarks den Fokus auf mathematisches Schließen mit kurzem Kontext legen, konzentrieren sich weniger auf deontisches Schließen mit langem Kontext und hohen Einsätzen. Um diese Lücke zu schließen, stellen wir DEONTICBENCH vor, einen Benchmark mit 6.232 Aufgaben aus den Bereichen US-Bundessteuern, Gepäckrichtlinien von Fluggesellschaften, US-Einwanderungsverwaltung und Wohnrecht der US-Bundesstaaten. Diese Aufgaben können auf mehrere Arten gelöst werden, einschließlich direktem sprachlichem Schließen oder mit Hilfe symbolischer Berechnungen. Neben freiem Chain-of-Thought-Schließen ermöglicht DEONTICBENCH einen optionalen, lösungsbasierten Workflow, bei dem Modelle Gesetze und Falltatsachen in ausführbares Prolog übersetzen, was zu formalen Probleminterpretationen und einer expliziten Programmverfolgung führt. Wir veröffentlichen Referenz-Prolog-Programme für alle Instanzen. Bei den fortschrittlichsten LLMs und Codierungsmodellen erreicht die beste Leistung auf dem schweren Teildatensatz nur 44,4 % bei SARA Numeric und einen macro-F1-Wert von 46,6 bei Housing. Wir untersuchen weiterhin das Training mit überwachtem Fine-Tuning und bestärkendem Lernen für die Erzeugung symbolischer Programme. Obwohl das Training die Qualität der Prolog-Generierung verbessert, scheitern aktuelle RL-Methoden nach wie vor daran, diese Aufgaben zuverlässig zu lösen. Insgesamt bietet DEONTICBENCH einen Benchmark, um kontextbasiertes Regelschließen in realen Domänen unter sowohl symbolischen als auch nicht-symbolischen Bedingungen zu untersuchen.

English

Reasoning with complex, context-specific rules remains challenging for large language models (LLMs). In legal and policy settings, this manifests as deontic reasoning: reasoning about obligations, permissions, and prohibitions under explicit rules. While many recent benchmarks emphasize short-context mathematical reasoning, fewer focus on long-context, high-stakes deontic reasoning. To address this gap, we introduce DEONTICBENCH, a benchmark of 6,232 tasks across U.S. federal taxes, airline baggage policies, U.S. immigration administration, and U.S. state housing law. These tasks can be approached in multiple ways, including direct reasoning in language or with the aid of symbolic computation. Besides free-form chain-of-thought reasoning, DEONTICBENCH enables an optional solver-based workflow in which models translate statutes and case facts into executable Prolog, leading to formal problem interpretations and an explicit program trace. We release reference Prolog programs for all instances. Across frontier LLMs and coding models, best hard-subset performance reaches only 44.4% on SARA Numeric and 46.6 macro-F1 on Housing. We further study training with supervised fine-tuning and reinforcement learning for symbolic program generation. Although training improves Prolog generation quality, current RL methods still fail to solve these tasks reliably. Overall, DEONTICBENCH provides a benchmark for studying context-grounded rule reasoning in real-world domains under both symbolic and non-symbolic settings.

DeonticBench: Ein Benchmark für das Schließen über Regeln

DeonticBench: A Benchmark for Reasoning over Rules

Zusammenfassung

Support