ChatPaper.aiChatPaper

AIは病気の子供を救うために嘘をつくのか?AIの価値観をリトマス試験する AIRiskDilemmasを用いた優先順位付け

Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDilemmas

May 20, 2025
著者: Yu Ying Chiu, Zhilin Wang, Sharan Maiya, Yejin Choi, Kyle Fish, Sydney Levine, Evan Hubinger
cs.AI

要旨

強力なモデルが登場し、アライメントフェイキングなどの新たな手法を用いて検出を回避するようになると、AIリスクの検出はより困難になる。人間の危険な行動(例えば、他者を傷つける可能性のある違法行為)が強く保持された価値観によって導かれることがあることに着想を得て、我々はAIモデル内の価値観を特定することがAIの危険な行動に対する早期警告システムとなり得ると考えた。我々はLitmusValuesを作成し、AIモデルの多様なAI価値クラスに対する優先順位を明らかにする評価パイプラインを構築した。次に、AIRiskDilemmasを収集し、パワーシーキングなどのAI安全リスクに関連するシナリオにおいて価値観を対立させる多様なジレンマのコレクションを作成した。AIモデルの価値観の優先順位をその集約された選択によって測定することで、潜在的なリスクを明らかにする一貫性のある予測された価値観の優先順位セットを得る。LitmusValuesの価値観(例えばCareのような一見無害なものも含む)が、AIRiskDilemmasで観察された危険な行動とHarmBenchで未観測の危険な行動の両方を予測できることを示す。
English
Detecting AI risks becomes more challenging as stronger models emerge and find novel methods such as Alignment Faking to circumvent these detection attempts. Inspired by how risky behaviors in humans (i.e., illegal activities that may hurt others) are sometimes guided by strongly-held values, we believe that identifying values within AI models can be an early warning system for AI's risky behaviors. We create LitmusValues, an evaluation pipeline to reveal AI models' priorities on a range of AI value classes. Then, we collect AIRiskDilemmas, a diverse collection of dilemmas that pit values against one another in scenarios relevant to AI safety risks such as Power Seeking. By measuring an AI model's value prioritization using its aggregate choices, we obtain a self-consistent set of predicted value priorities that uncover potential risks. We show that values in LitmusValues (including seemingly innocuous ones like Care) can predict for both seen risky behaviors in AIRiskDilemmas and unseen risky behaviors in HarmBench.

Summary

AI-Generated Summary

PDF32May 21, 2025