DeonticBench : Un Benchmark pour le Raisonnement sur les Règles

Résumé

Le raisonnement avec des règles complexes et spécifiques au contexte reste difficile pour les grands modèles de langage (LLM). Dans les cadres juridiques et politiques, cela se manifeste sous la forme du raisonnement déontique : le raisonnement sur les obligations, les permissions et les interdictions selon des règles explicites. Alors que de nombreux benchmarks récents mettent l'accent sur le raisonnement mathématique en contexte court, peu se concentrent sur le raisonnement déontique à enjeux élevés et en contexte long. Pour combler cette lacune, nous présentons DEONTICBENCH, un benchmark de 6 232 tâches couvrant les impôts fédéraux américains, les politiques de bagages des compagnies aériennes, l'administration de l'immigration aux États-Unis et le droit du logement des États américains. Ces tâches peuvent être abordées de multiples façons, notamment par un raisonnement direct en langage naturel ou à l'aide de calculs symboliques. Outre le raisonnement en chaîne de pensée libre, DEONTICBENCH permet un workflow optionnel basé sur un solveur dans lequel les modèles traduisent les textes législatifs et les faits de l'affaire en Prolog exécutable, conduisant à des interprétations formelles du problème et une trace de programme explicite. Nous publions des programmes de référence en Prolog pour toutes les instances. Parmi les LLM de pointe et les modèles de codage, les meilleures performances sur le sous-ensemble difficile n'atteignent que 44,4 % sur SARA Numérique et 46,6 de macro-F1 sur Housing. Nous étudions également l'entraînement par fine-tuning supervisé et l'apprentissage par renforcement pour la génération de programmes symboliques. Bien que l'entraînement améliore la qualité de la génération en Prolog, les méthodes actuelles d'apprentissage par renforcement ne parviennent toujours pas à résoudre ces tâches de manière fiable. Dans l'ensemble, DEONTICBENCH fournit un benchmark pour étudier le raisonnement ancré dans le contexte et basé sur des règles dans des domaines réels, à la fois dans des cadres symboliques et non symboliques.

English

Reasoning with complex, context-specific rules remains challenging for large language models (LLMs). In legal and policy settings, this manifests as deontic reasoning: reasoning about obligations, permissions, and prohibitions under explicit rules. While many recent benchmarks emphasize short-context mathematical reasoning, fewer focus on long-context, high-stakes deontic reasoning. To address this gap, we introduce DEONTICBENCH, a benchmark of 6,232 tasks across U.S. federal taxes, airline baggage policies, U.S. immigration administration, and U.S. state housing law. These tasks can be approached in multiple ways, including direct reasoning in language or with the aid of symbolic computation. Besides free-form chain-of-thought reasoning, DEONTICBENCH enables an optional solver-based workflow in which models translate statutes and case facts into executable Prolog, leading to formal problem interpretations and an explicit program trace. We release reference Prolog programs for all instances. Across frontier LLMs and coding models, best hard-subset performance reaches only 44.4% on SARA Numeric and 46.6 macro-F1 on Housing. We further study training with supervised fine-tuning and reinforcement learning for symbolic program generation. Although training improves Prolog generation quality, current RL methods still fail to solve these tasks reliably. Overall, DEONTICBENCH provides a benchmark for studying context-grounded rule reasoning in real-world domains under both symbolic and non-symbolic settings.

DeonticBench : Un Benchmark pour le Raisonnement sur les Règles

DeonticBench: A Benchmark for Reasoning over Rules

Résumé

Support