Onderzoek naar overeenkomst op uitkomstdniveau en afstemming op mechanismeniveau in risicobeslissingen van LLM's: bewijs uit het Sint-Petersburgspel

Samenvatting

LLM's kunnen voorzichtig lijken in risicobeslissingstaken, maar voorzichtig ogende uitkomsten wijzen niet noodzakelijkerwijs op afstemming met menselijke besluitvormingsmechanismen. We onderzoeken dit onderscheid aan de hand van het Sint-Petersburgspel als gecontroleerde testomgeving, een klassieke paradox waarin de verwachte uitbetaling oneindig is, maar mensen doorgaans een lage, eindige betalingsbereidheid rapporteren. We evalueren 28 LLM's met een gestructureerd promptpakket dat het oorspronkelijke spel bevat; gecontroleerde besluitvarianten die truncatie, herhaald spel, numeriek kapitaal en beroepsidentiteit verstoren; een mensperspectiefprompt dat modellen vraagt te redeneren als menselijke besluitvormers; en gepaarde vergelijkingen tussen basismodellen en hun instructiegetunede tegenhangers. In het oorspronkelijke spel genereren de meeste modellen eindige biedingen, wat de schijn wekt van menselijk risicogedrag. Deze overeenkomst op uitkomstniveau maskeert echter aanzienlijke verschillen op mechanismeniveau. De gecontroleerde varianten tonen aan dat modellen, in plaats van het in het oorspronkelijke spel waargenomen menselijk gedrag te handhaven, vaak overschakelen naar conditioneel en computationeel rationeel gedrag. Menselijk-cue-prompts en instructietuning verlagen vaak biedingen en verminderen enkele zichtbare pathologieën, maar de meeste responspatronen op mechanismeniveau blijven grotendeels ongewijzigd. Deze bevindingen tonen aan dat gedragsmatige afstemming in risicobesluitvorming oppervlakkig kan zijn: LLM's kunnen menselijke risicobesluiten produceren zonder menselijk consistente mechanismen te vertonen. Evaluaties met hoge inzet van LLM-besluitvorming moeten daarom verder kijken dan uitkomstovereenkomst en onderzoeken of de afstemming wordt ondersteund door consistentie op mechanismeniveau.

English

LLMs can appear cautious in risk decision-making tasks, yet cautious-looking outputs do not necessarily indicate alignment with human decision-making mechanisms. We investigate this distinction using the St. Petersburg game as a controlled testbed, a classical paradox in which the expected payoff is infinite, yet humans typically report low, finite willingness to pay. We evaluate 28 LLMs with a structured prompt suite that includes the original game; controlled decision variants that perturb truncation, repeated play, numeric endowment, and occupational identity; a human-perspective prompt that asks models to reason as human decision makers; and paired comparisons between base models and their instruction-tuned counterparts. In the original game, most models generate finite bids, creating the appearance of human-like risk behavior. However, this outcome-level resemblance masks substantial mechanism-level differences. The controlled variants reveal that rather than maintaining human-like behavior seen in the original game, models often shift to conditionally and computationally rational behavior. Human-cue prompting and instruction tuning often lower bids and reduce some visible pathologies, but most mechanism-level response patterns remain largely unchanged. These findings show that behavioral alignment in risk decision-making can be surface-level: LLMs may produce human-like risk decisions without exhibiting human-consistent mechanisms. High-stakes evaluations of LLM decision-making should therefore move beyond outcome similarity and examine whether the alignment is supported by mechanism-level consistency.