ChatPaper.aiChatPaper

DAR: Raciocínio Deôntico com Arneses Agenciais

DAR: Deontic Reasoning with Agentic Harnesses

June 3, 2026
Autores: Guangyao Dou, William Jurayj, Nils Holzenberger, Benjamin Van Durme
cs.AI

Resumo

O raciocínio deôntico é a tarefa de responder a perguntas aplicando regras e políticas explícitas a fatos específicos de cada caso, por exemplo, calculando a obrigação tributária de acordo com uma lei ou determinando o resultado de um recurso de imigração. Um desafio técnico fundamental para o raciocínio deôntico baseado em LLMs é que o conjunto de regras relevante pode ser longo e referenciado de forma cruzada, de modo que os modelos ainda podem falhar em localizar as regras necessárias para uma etapa específica de raciocínio. Apresentamos o Deontic Agentic Reasoning (DAR), uma configuração de raciocínio agentivo na qual o modelo interage com as leis sob demanda. Avaliamos o DAR sob múltiplos arcabouços em subconjuntos difíceis do DeonticBench. Nessas configurações, constatamos que arcabouços agentivos podem ampliar os limites em tarefas de raciocínio deôntico, mas as melhorias não são uniformes: modelos mais fracos frequentemente pioram em tarefas numéricas, consumindo muito mais tokens.
English
Deontic reasoning is the task of answering questions by applying explicit rules and policies to case-specific facts, for example computing tax liability under a statute or determining the outcome of an immigration appeal. A key technical challenge for LLM-based deontic reasoning is that the relevant ruleset can be long and cross-referenced, so models may still fail to locate the rules needed for a particular reasoning step. We introduce Deontic Agentic Reasoning (DAR), an agentic reasoning setup in which the model interacts with the statutes on demand. We evaluate DAR under multiple harnesses on hard subsets of DeonticBench. Across these settings, we find that agentic harnesses can push the frontier on deontic reasoning tasks, but improvements are not uniform: weaker models often degrade on numerical tasks while consuming far more tokens.