DeonticBench: Un Punto de Referencia para el Razonamiento sobre Reglas

Resumen

El razonamiento con reglas complejas y específicas del contexto sigue siendo un desafío para los grandes modelos de lenguaje (LLM). En entornos legales y de políticas, esto se manifiesta como razonamiento deóntico: razonar sobre obligaciones, permisos y prohibiciones según reglas explícitas. Si bien muchos puntos de referencia recientes enfatizan el razonamiento matemático en contextos cortos, pocos se centran en el razonamiento deóntico de alto impacto y contexto largo. Para abordar esta brecha, presentamos DEONTICBENCH, un punto de referencia que comprende 6.232 tareas sobre impuestos federales estadounidenses, políticas de equipaje de aerolíneas, administración de inmigración de EE. UU. y leyes de vivienda estatales de EE. UU. Estas tareas pueden abordarse de múltiples maneras, incluyendo el razonamiento directo en lenguaje natural o con ayuda de cómputo simbólico. Además del razonamiento de cadena de pensamiento de forma libre, DEONTICBENCH permite un flujo de trabajo opcional basado en solucionadores, en el que los modelos traducen estatutos y hechos del caso a Prolog ejecutable, conduciendo a interpretaciones formales del problema y un trazado de programa explícito. Publicamos programas de referencia en Prolog para todas las instancias. En los mejores LLM de vanguardia y modelos de codificación, el rendimiento en el subconjunto más difícil alcanza solo un 44.4% en SARA Numérico y 46.6 de macro-F1 en Vivienda. Además, estudiamos el entrenamiento con ajuste fino supervisado y aprendizaje por refuerzo para la generación de programas simbólicos. Aunque el entrenamiento mejora la calidad de la generación de Prolog, los métodos actuales de aprendizaje por refuerzo aún no resuelven estas tareas de manera confiable. En general, DEONTICBENCH proporciona un punto de referencia para estudiar el razonamiento con reglas anclado en el contexto en dominios del mundo real, tanto en entornos simbólicos como no simbólicos.

English

Reasoning with complex, context-specific rules remains challenging for large language models (LLMs). In legal and policy settings, this manifests as deontic reasoning: reasoning about obligations, permissions, and prohibitions under explicit rules. While many recent benchmarks emphasize short-context mathematical reasoning, fewer focus on long-context, high-stakes deontic reasoning. To address this gap, we introduce DEONTICBENCH, a benchmark of 6,232 tasks across U.S. federal taxes, airline baggage policies, U.S. immigration administration, and U.S. state housing law. These tasks can be approached in multiple ways, including direct reasoning in language or with the aid of symbolic computation. Besides free-form chain-of-thought reasoning, DEONTICBENCH enables an optional solver-based workflow in which models translate statutes and case facts into executable Prolog, leading to formal problem interpretations and an explicit program trace. We release reference Prolog programs for all instances. Across frontier LLMs and coding models, best hard-subset performance reaches only 44.4% on SARA Numeric and 46.6 macro-F1 on Housing. We further study training with supervised fine-tuning and reinforcement learning for symbolic program generation. Although training improves Prolog generation quality, current RL methods still fail to solve these tasks reliably. Overall, DEONTICBENCH provides a benchmark for studying context-grounded rule reasoning in real-world domains under both symbolic and non-symbolic settings.

DeonticBench: Un Punto de Referencia para el Razonamiento sobre Reglas

DeonticBench: A Benchmark for Reasoning over Rules

Resumen

Support