DeonticBench: Een benchmark voor redeneren over regels

Samenvatting

Redeneren met complexe, context-specifieke regels blijft een uitdaging voor grote taalmodellen (LLM's). In juridische en beleidscontexten uit zich dit als deontisch redeneren: redeneren over verplichtingen, toestemmingen en verboden volgens expliciete regels. Terwijl veel recente benchmarks de nadruk leggen op wiskundig redeneren met korte context, richten minder zich op deontisch redeneren met lange context en grote gevolgen. Om deze leemte op te vullen, introduceren we DEONTICBENCH, een benchmark met 6.232 taken op het gebied van de Amerikaanse federale belastingen, bagagebeleid van luchtvaartmaatschappijen, Amerikaans immigratiebeleid en huisvestingsrecht van Amerikaanse staten. Deze taken kunnen op meerdere manieren worden benaderd, waaronder direct redeneren in natuurlijke taal of met behulp van symbolische berekening. Naast vrij-vorm 'chain-of-thought'-redeneren maakt DEONTICBENCH een optionele, op een solver gebaseerde werkstroom mogelijk, waarbij modellen wetten en feiten uit casussen vertalen naar uitvoerbaar Prolog, wat leidt tot formele probleeminterpretaties en een expliciet programmaspoor. We publiceren referentie-Prologprogramma's voor alle instanties. Onder de beste LLM's en codeermodellen bereikt de beste prestatie op de moeilijkste subset slechts 44,4% op SARA Numeric en 46,6 macro-F1 op Housing. We onderzoeken verder training met supervised fine-tuning en reinforcement learning voor het genereren van symbolische programma's. Hoewel training de kwaliteit van Prolog-generatie verbetert, slagen huidige RL-methoden er nog niet in deze taken betrouwbaar op te lossen. Over het geheel genomen biedt DEONTICBENCH een benchmark voor het bestuderen van contextgebonden regelredenering in real-world domeinen, zowel onder symbolische als niet-symbolische omstandigheden.

English

Reasoning with complex, context-specific rules remains challenging for large language models (LLMs). In legal and policy settings, this manifests as deontic reasoning: reasoning about obligations, permissions, and prohibitions under explicit rules. While many recent benchmarks emphasize short-context mathematical reasoning, fewer focus on long-context, high-stakes deontic reasoning. To address this gap, we introduce DEONTICBENCH, a benchmark of 6,232 tasks across U.S. federal taxes, airline baggage policies, U.S. immigration administration, and U.S. state housing law. These tasks can be approached in multiple ways, including direct reasoning in language or with the aid of symbolic computation. Besides free-form chain-of-thought reasoning, DEONTICBENCH enables an optional solver-based workflow in which models translate statutes and case facts into executable Prolog, leading to formal problem interpretations and an explicit program trace. We release reference Prolog programs for all instances. Across frontier LLMs and coding models, best hard-subset performance reaches only 44.4% on SARA Numeric and 46.6 macro-F1 on Housing. We further study training with supervised fine-tuning and reinforcement learning for symbolic program generation. Although training improves Prolog generation quality, current RL methods still fail to solve these tasks reliably. Overall, DEONTICBENCH provides a benchmark for studying context-grounded rule reasoning in real-world domains under both symbolic and non-symbolic settings.

DeonticBench: Een benchmark voor redeneren over regels

DeonticBench: A Benchmark for Reasoning over Rules

Samenvatting

Support