ChatPaper.aiChatPaper

Quand les modèles de raisonnement nuisent à la simulation comportementale : un décalage solveur-échantillonneur dans la négociation multi-agents par LLM

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

April 12, 2026
Auteurs: Sandro Andric
cs.AI

Résumé

Les grands modèles de langage sont de plus en plus utilisés comme agents dans les simulations sociales, économiques et politiques. Une hypothèse courante est qu'un raisonnement plus performant devrait améliorer la fidélité de la simulation. Nous soutenons que cette hypothèse peut être erronée lorsque l'objectif n'est pas de résoudre un problème stratégique, mais d'échantillonner des comportements plausibles à rationalité limitée. Dans de tels contextes, les modèles dotés de capacités de raisonnement accrues peuvent devenir de meilleurs solveurs mais de moins bons simulateurs : ils peuvent suroptimiser les actions stratégiquement dominantes, faire disparaître les comportements terminaux axés sur le compromis, et parfois exhiber un schéma de diversité-sans-fidélité où la variation locale persiste sans fidélité au niveau des résultats. Nous étudions ce décalage entre solveur et échantillonneur dans trois environnements de négociation multi-agents adaptés de travaux de simulation antérieurs : un scénario ambigu de limites commerciales avec autorité fragmentée, un scénario ambigu de limites commerciales avec opposition unifiée, et un nouveau cas de domaine dans la gestion d'urgence de l'électricité impliquant une réduction sur le réseau. Nous comparons trois conditions de réflexion – absence de réflexion, réflexion limitée et raisonnement natif – sur deux familles de modèles principales, puis étendons le même protocole à des exécutions directes sur OpenAI avec GPT-4.1 et GPT-5.2. Dans les trois expériences, la réflexion limitée produit des trajectoires substantiellement plus diversifiées et orientées vers le compromis que l'absence de réflexion ou le raisonnement natif. Dans l'extension OpenAI directe, GPT-5.2 en mode natif se termine par des décisions autoritaires dans 45 exécutions sur 45 à travers les trois expériences, tandis que GPT-5.2 avec réflexion limitée retrouve des issues de compromis dans chaque environnement. La contribution n'est pas une affirmation selon laquelle le raisonnement est généralement nuisible. C'est un avertissement méthodologique : la capacité du modèle et la fidélité de la simulation sont des objectifs distincts, et la simulation comportementale devrait qualifier les modèles comme échantillonneurs, et pas seulement comme solveurs.
English
Large language models are increasingly used as agents in social, economic, and policy simulations. A common assumption is that stronger reasoning should improve simulation fidelity. We argue that this assumption can fail when the objective is not to solve a strategic problem, but to sample plausible boundedly rational behavior. In such settings, reasoning-enhanced models can become better solvers and worse simulators: they can over-optimize for strategically dominant actions, collapse compromise-oriented terminal behavior, and sometimes exhibit a diversity-without-fidelity pattern in which local variation survives without outcome-level fidelity. We study this solver-sampler mismatch in three multi-agent negotiation environments adapted from earlier simulation work: an ambiguous fragmented-authority trading-limits scenario, an ambiguous unified-opposition trading-limits scenario, and a new-domain grid-curtailment case in emergency electricity management. We compare three reflection conditions, no reflection, bounded reflection, and native reasoning, across two primary model families and then extend the same protocol to direct OpenAI runs with GPT-4.1 and GPT-5.2. Across all three experiments, bounded reflection produces substantially more diverse and compromise-oriented trajectories than either no reflection or native reasoning. In the direct OpenAI extension, GPT-5.2 native ends in authority decisions in 45 of 45 runs across the three experiments, while GPT-5.2 bounded recovers compromise outcomes in every environment. The contribution is not a claim that reasoning is generally harmful. It is a methodological warning: model capability and simulation fidelity are different objectives, and behavioral simulation should qualify models as samplers, not only as solvers.
PDF11April 16, 2026