DAR: Deontisch redeneren met agentische harnassen
DAR: Deontic Reasoning with Agentic Harnesses
June 3, 2026
Auteurs: Guangyao Dou, William Jurayj, Nils Holzenberger, Benjamin Van Durme
cs.AI
Samenvatting
Deontisch redeneren is de taak om vragen te beantwoorden door expliciete regels en beleidslijnen toe te passen op casespecifieke feiten, bijvoorbeeld het berekenen van belastingplicht onder een wet of het bepalen van de uitkomst van een immigratieberoep. Een belangrijke technische uitdaging voor op LLM's gebaseerd deontisch redeneren is dat de relevante regelset lang en onderling verwijzend kan zijn, waardoor modellen mogelijk nog steeds niet in staat zijn de regels te lokaliseren die nodig zijn voor een specifieke redeneerstap. We introduceren Deontisch Agentisch Redeneren (DAR), een agentische redeneeropzet waarin het model op aanvraag interacteert met de wetten. We evalueren DAR onder meerdere harnassen op moeilijke subsets van DeonticBench. In deze instellingen zien we dat agentische harnassen de grens kunnen verleggen bij deontische redeneertaken, maar de verbeteringen zijn niet uniform: zwakkere modellen gaan vaak achteruit bij numerieke taken terwijl ze aanzienlijk meer tokens verbruiken.
English
Deontic reasoning is the task of answering questions by applying explicit rules and policies to case-specific facts, for example computing tax liability under a statute or determining the outcome of an immigration appeal. A key technical challenge for LLM-based deontic reasoning is that the relevant ruleset can be long and cross-referenced, so models may still fail to locate the rules needed for a particular reasoning step. We introduce Deontic Agentic Reasoning (DAR), an agentic reasoning setup in which the model interacts with the statutes on demand. We evaluate DAR under multiple harnesses on hard subsets of DeonticBench. Across these settings, we find that agentic harnesses can push the frontier on deontic reasoning tasks, but improvements are not uniform: weaker models often degrade on numerical tasks while consuming far more tokens.