Quando i Modelli di Ragionamento Compromettono la Simulazione Comportamentale: un Disallineamento Risolutore-Campionatore nella Negoziazione Multi-Agente basata su LLM
When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation
April 12, 2026
Autori: Sandro Andric
cs.AI
Abstract
I modelli linguistici di grandi dimensioni sono sempre più utilizzati come agenti in simulazioni sociali, economiche e politiche. Un presupposto comune è che una capacità di ragionamento più forte dovrebbe migliorare la fedeltà della simulazione. Sosteniamo che questo presupposto può fallire quando l'obiettivo non è risolvere un problema strategico, ma campionare un comportamento plausibile e limitatamente razionale. In tali contesti, i modelli potenziati nel ragionamento possono diventare risolutori migliori e simulatori peggiori: possono ottimizzare eccessivamente le azioni strategicamente dominanti, far collassare il comportamento terminale orientato al compromesso e talvolta esibire uno schema di diversità-senza-fedeltà in cui la variazione locale sopravvive senza una fedeltà a livello di risultato. Studiamo questa discrepanza tra risolutore e campionatore in tre ambienti di negoziazione multi-agente adattati da precedenti lavori di simulazione: uno scenario di limiti commerciali con autorità frammentata e ambigua, uno scenario di limiti commerciali con opposizione unificata e ambigua, e un caso di nuovo dominio sul razionamento della rete nella gestione elettrica d'emergenza. Confrontiamo tre condizioni di riflessione (nessuna riflessione, riflessione limitata e ragionamento nativo) su due famiglie primarie di modelli, per poi estendere lo stesso protocollo a esecuzioni dirette su OpenAI con GPT-4.1 e GPT-5.2. In tutti e tre gli esperimenti, la riflessione limitata produce traiettorie sostanzialmente più diversificate e orientate al compromesso rispetto all'assenza di riflessione o al ragionamento nativo. Nell'estensione diretta su OpenAI, GPT-5.2 nativo termina con decisioni autoritative in 45 su 45 esecuzioni nei tre esperimenti, mentre GPT-5..2 con riflessione limitata recupera esiti di compromesso in ogni ambiente. Il contributo non è l'affermazione che il ragionamento sia generalmente dannoso. È un avvertimento metodologico: la capacità del modello e la fedeltà della simulazione sono obiettivi diversi, e la simulazione comportamentale dovrebbe qualificare i modelli come campionatori, non solo come risolutori.
English
Large language models are increasingly used as agents in social, economic, and policy simulations. A common assumption is that stronger reasoning should improve simulation fidelity. We argue that this assumption can fail when the objective is not to solve a strategic problem, but to sample plausible boundedly rational behavior. In such settings, reasoning-enhanced models can become better solvers and worse simulators: they can over-optimize for strategically dominant actions, collapse compromise-oriented terminal behavior, and sometimes exhibit a diversity-without-fidelity pattern in which local variation survives without outcome-level fidelity. We study this solver-sampler mismatch in three multi-agent negotiation environments adapted from earlier simulation work: an ambiguous fragmented-authority trading-limits scenario, an ambiguous unified-opposition trading-limits scenario, and a new-domain grid-curtailment case in emergency electricity management. We compare three reflection conditions, no reflection, bounded reflection, and native reasoning, across two primary model families and then extend the same protocol to direct OpenAI runs with GPT-4.1 and GPT-5.2. Across all three experiments, bounded reflection produces substantially more diverse and compromise-oriented trajectories than either no reflection or native reasoning. In the direct OpenAI extension, GPT-5.2 native ends in authority decisions in 45 of 45 runs across the three experiments, while GPT-5.2 bounded recovers compromise outcomes in every environment. The contribution is not a claim that reasoning is generally harmful. It is a methodological warning: model capability and simulation fidelity are different objectives, and behavioral simulation should qualify models as samplers, not only as solvers.