Investigando a Semelhança ao Nível do Resultado e o Alinhamento ao Nível do Mecanismo nas Decisões de Risco de LLMs: Evidências do Jogo de São Petersburgo

Resumo

LLMs podem parecer cautelosas em tarefas de tomada de decisão sob risco, mas resultados que aparentam cautela não indicam necessariamente alinhamento com os mecanismos de decisão humanos. Investigamos essa distinção utilizando o jogo de São Petersburgo como um teste controlado, um paradoxo clássico no qual o retorno esperado é infinito, embora os seres humanos tipicamente relatem uma disposição a pagar baixa e finita. Avaliamos 28 LLMs com um conjunto estruturado de prompts que inclui o jogo original; variantes controladas de decisão que alteram truncamento, repetição, dotação numérica e identidade ocupacional; um prompt de perspectiva humana que solicita que os modelos raciocinem como tomadores de decisão humanos; e comparações pareadas entre modelos base e suas versões ajustadas por instrução. No jogo original, a maioria dos modelos gera lances finitos, criando a aparência de comportamento de risco semelhante ao humano. Contudo, essa semelhança ao nível do resultado mascara diferenças substanciais ao nível do mecanismo. As variantes controladas revelam que, em vez de manter o comportamento humano observado no jogo original, os modelos frequentemente mudam para um comportamento condicional e computacionalmente racional. O uso de prompts com sinais humanos e o ajuste por instrução frequentemente reduzem os lances e atenuam algumas patologias visíveis, mas a maioria dos padrões de resposta ao nível do mecanismo permanece amplamente inalterada. Esses achados mostram que o alinhamento comportamental na tomada de decisão sob risco pode ser superficial: LLMs podem produzir decisões de risco semelhantes às humanas sem exibir mecanismos consistentes com os humanos. Avaliações de alto risco da tomada de decisão de LLMs devem, portanto, ir além da similaridade de resultados e examinar se o alinhamento é sustentado por consistência ao nível do mecanismo.

English

LLMs can appear cautious in risk decision-making tasks, yet cautious-looking outputs do not necessarily indicate alignment with human decision-making mechanisms. We investigate this distinction using the St. Petersburg game as a controlled testbed, a classical paradox in which the expected payoff is infinite, yet humans typically report low, finite willingness to pay. We evaluate 28 LLMs with a structured prompt suite that includes the original game; controlled decision variants that perturb truncation, repeated play, numeric endowment, and occupational identity; a human-perspective prompt that asks models to reason as human decision makers; and paired comparisons between base models and their instruction-tuned counterparts. In the original game, most models generate finite bids, creating the appearance of human-like risk behavior. However, this outcome-level resemblance masks substantial mechanism-level differences. The controlled variants reveal that rather than maintaining human-like behavior seen in the original game, models often shift to conditionally and computationally rational behavior. Human-cue prompting and instruction tuning often lower bids and reduce some visible pathologies, but most mechanism-level response patterns remain largely unchanged. These findings show that behavioral alignment in risk decision-making can be surface-level: LLMs may produce human-like risk decisions without exhibiting human-consistent mechanisms. High-stakes evaluations of LLM decision-making should therefore move beyond outcome similarity and examine whether the alignment is supported by mechanism-level consistency.