LLMのリスク判断における結果レベルの類似性とメカニズムレベルの整合性の検証:サンクトペテルブルクゲームを用いた証拠
Probing Outcome-Level Resemblance and Mechanism-Level Alignment in LLM Risk Decisions: Evidence from the St. Petersburg Game
June 3, 2026
著者: Chensong Huang, Changyu Chen, Chenwei Lin, Hanjia Lyu, Xian Xu, Jiebo Luo
cs.AI
要旨
LLMはリスク意思決定タスクにおいて慎重に見えることがあるが、注意深く見える出力が必ずしも人間の意思決定メカニズムとの整合性を示すわけではない。本稿ではこの区別を、サンクトペテルブルクゲームを制御可能なテストベッドとして用いて検討する。このゲームは古典的なパラドックスであり、期待利得は無限大であるにもかかわらず、人間は通常、低く有限な支払意思額を示す。我々は28のLLMを評価するため、構造化されたプロンプト群を用いた。これには、オリジナルゲーム、打ち切り・反復プレイ・数値的初期保有額・職業的アイデンティティを摂動させる制御された決定バリアント、モデルに人間の意思決定者として推論させる人間視点プロンプト、そしてベースモデルとその指示チューニング版とのペア比較が含まれる。オリジナルゲームでは、ほとんどのモデルが有限の入札額を生成し、人間らしいリスク行動のように見える。しかし、この結果レベルの類似性は、メカニズムレベルの大きな差異を覆い隠している。制御されたバリアントは、オリジナルゲームで見られた人間らしい行動を維持する代わりに、モデルが条件付きかつ計算論的に合理的な行動へと移行することを明らかにする。人間的手がかりのプロンプトや指示チューニングは、しばしば入札額を低下させ、一部の目に見える病理を軽減するが、メカニズムレベルの反応パターンのほとんどはほとんど変わらない。これらの知見は、リスク意思決定における行動の整合性が表面的なものにすぎない可能性を示している。すなわち、LLMは人間と一致するメカニズムを示さずに、人間らしいリスク決定を生成することがある。したがって、LLMの意思決定に対するハイステークスな評価は、結果の類似性を超え、その整合性がメカニズムレベルの一貫性によって支えられているかを検討すべきである。
English
LLMs can appear cautious in risk decision-making tasks, yet cautious-looking outputs do not necessarily indicate alignment with human decision-making mechanisms. We investigate this distinction using the St. Petersburg game as a controlled testbed, a classical paradox in which the expected payoff is infinite, yet humans typically report low, finite willingness to pay. We evaluate 28 LLMs with a structured prompt suite that includes the original game; controlled decision variants that perturb truncation, repeated play, numeric endowment, and occupational identity; a human-perspective prompt that asks models to reason as human decision makers; and paired comparisons between base models and their instruction-tuned counterparts. In the original game, most models generate finite bids, creating the appearance of human-like risk behavior. However, this outcome-level resemblance masks substantial mechanism-level differences. The controlled variants reveal that rather than maintaining human-like behavior seen in the original game, models often shift to conditionally and computationally rational behavior. Human-cue prompting and instruction tuning often lower bids and reduce some visible pathologies, but most mechanism-level response patterns remain largely unchanged. These findings show that behavioral alignment in risk decision-making can be surface-level: LLMs may produce human-like risk decisions without exhibiting human-consistent mechanisms. High-stakes evaluations of LLM decision-making should therefore move beyond outcome similarity and examine whether the alignment is supported by mechanism-level consistency.