DeonticBench: Um Benchmark para Raciocínio sobre Regras

Resumo

O raciocínio com regras complexas e específicas de contexto continua sendo um desafio para os grandes modelos de linguagem (LLMs). Em contextos jurídicos e políticos, isso se manifesta como raciocínio deôntico: raciocinar sobre obrigações, permissões e proibições sob regras explícitas. Embora muitos benchmarks recentes enfatizem o raciocínio matemático de contexto curto, poucos se concentram no raciocínio deôntico de alto risco e contexto longo. Para preencher essa lacuna, apresentamos o DEONTICBENCH, um benchmark composto por 6.232 tarefas abrangendo impostos federais dos EUA, políticas de bagagem de companhias aéreas, administração de imigração dos EUA e leis estaduais de habitação dos EUA. Essas tarefas podem ser abordadas de várias maneiras, incluindo raciocínio direto em linguagem natural ou com auxílio de computação simbólica. Além do raciocínio em cadeia de pensamento de forma livre, o DEONTICBENCH permite um fluxo de trabalho opcional baseado em solucionador, no qual os modelos traduzem estatutos e fatos do caso em Prolog executável, levando a interpretações formais do problema e um rastreamento de programa explícito. Disponibilizamos programas de referência em Prolog para todas as instâncias. Entre os LLMs de fronteira e modelos de codificação, o melhor desempenho no subconjunto difícil atinge apenas 44,4% no SARA Numérico e 46,6 de macro-F1 no Habitação. Estudamos ainda o treinamento com ajuste fino supervisionado e aprendizado por reforço para a geração de programas simbólicos. Embora o treinamento melhore a qualidade da geração em Prolog, os métodos atuais de RL ainda não resolvem essas tarefas de forma confiável. No geral, o DEONTICBENCH fornece um benchmark para estudar o raciocínio baseado em regras fundamentadas no contexto em domínios do mundo real, tanto em configurações simbólicas quanto não simbólicas.

English

Reasoning with complex, context-specific rules remains challenging for large language models (LLMs). In legal and policy settings, this manifests as deontic reasoning: reasoning about obligations, permissions, and prohibitions under explicit rules. While many recent benchmarks emphasize short-context mathematical reasoning, fewer focus on long-context, high-stakes deontic reasoning. To address this gap, we introduce DEONTICBENCH, a benchmark of 6,232 tasks across U.S. federal taxes, airline baggage policies, U.S. immigration administration, and U.S. state housing law. These tasks can be approached in multiple ways, including direct reasoning in language or with the aid of symbolic computation. Besides free-form chain-of-thought reasoning, DEONTICBENCH enables an optional solver-based workflow in which models translate statutes and case facts into executable Prolog, leading to formal problem interpretations and an explicit program trace. We release reference Prolog programs for all instances. Across frontier LLMs and coding models, best hard-subset performance reaches only 44.4% on SARA Numeric and 46.6 macro-F1 on Housing. We further study training with supervised fine-tuning and reinforcement learning for symbolic program generation. Although training improves Prolog generation quality, current RL methods still fail to solve these tasks reliably. Overall, DEONTICBENCH provides a benchmark for studying context-grounded rule reasoning in real-world domains under both symbolic and non-symbolic settings.

DeonticBench: Um Benchmark para Raciocínio sobre Regras

DeonticBench: A Benchmark for Reasoning over Rules

Resumo

Support