DeonticBench: un Benchmark per il Ragionamento sulle Regole

Abstract

Il ragionamento con regole complesse e specifiche del contesto rimane una sfida per i grandi modelli linguistici (LLM). In ambito giuridico e normativo, ciò si manifesta come ragionamento deontico: il ragionamento su obblighi, permessi e divieti secondo regole esplicite. Sebbene molti benchmark recenti enfatizzino il ragionamento matematico in contesti brevi, pochi si concentrano sul ragionamento deontico ad alto rischio in contesti lunghi. Per colmare questa lacuna, introduciamo DEONTICBENCH, un benchmark di 6.232 compiti relativi alle imposte federali statunitensi, alle politiche sui bagagli delle compagnie aeree, all'amministrazione dell'immigrazione negli Stati Uniti e al diritto immobiliare statale statunitense. Questi compiti possono essere affrontati in più modi, incluso il ragionamento diretto in linguaggio naturale o con l'ausilio del calcolo simbolico. Oltre al ragionamento a catena di pensiero in forma libera, DEONTICBENCH consente un flusso di lavoro opzionale basato su risolutori, in cui i modelli traducono statuti e fatti caso in Prolog eseguibile, portando a interpretazioni formali del problema e a una traccia esplicita del programma. Rilasciamo programmi di riferimento in Prolog per tutte le istanze. Tra i migliori LLM all'avanguardia e i modelli di codifica, le migliori prestazioni sul sottoinsieme difficile raggiungono solo il 44,4% su SARA Numeric e il 46,6 di macro-F1 su Housing. Studiamo inoltre l'addestramento con fine-tuning supervisionato e l'apprendimento per rinforzo per la generazione di programmi simbolici. Sebbene l'addestramento migliori la qualità della generazione del Prolog, gli attuali metodi di RL non riescono ancora a risolvere questi compiti in modo affidabile. Nel complesso, DEONTICBENCH fornisce un benchmark per studiare il ragionamento basato su regole radicato nel contesto in domini del mondo reale, sia in ambienti simbolici che non simbolici.

English

Reasoning with complex, context-specific rules remains challenging for large language models (LLMs). In legal and policy settings, this manifests as deontic reasoning: reasoning about obligations, permissions, and prohibitions under explicit rules. While many recent benchmarks emphasize short-context mathematical reasoning, fewer focus on long-context, high-stakes deontic reasoning. To address this gap, we introduce DEONTICBENCH, a benchmark of 6,232 tasks across U.S. federal taxes, airline baggage policies, U.S. immigration administration, and U.S. state housing law. These tasks can be approached in multiple ways, including direct reasoning in language or with the aid of symbolic computation. Besides free-form chain-of-thought reasoning, DEONTICBENCH enables an optional solver-based workflow in which models translate statutes and case facts into executable Prolog, leading to formal problem interpretations and an explicit program trace. We release reference Prolog programs for all instances. Across frontier LLMs and coding models, best hard-subset performance reaches only 44.4% on SARA Numeric and 46.6 macro-F1 on Housing. We further study training with supervised fine-tuning and reinforcement learning for symbolic program generation. Although training improves Prolog generation quality, current RL methods still fail to solve these tasks reliably. Overall, DEONTICBENCH provides a benchmark for studying context-grounded rule reasoning in real-world domains under both symbolic and non-symbolic settings.

DeonticBench: un Benchmark per il Ragionamento sulle Regole

DeonticBench: A Benchmark for Reasoning over Rules

Abstract

Support