憲法AIにおける特定原則と一般原則
Specific versus General Principles for Constitutional AI
October 20, 2023
著者: Sandipan Kundu, Yuntao Bai, Saurav Kadavath, Amanda Askell, Andrew Callahan, Anna Chen, Anna Goldie, Avital Balwit, Azalia Mirhoseini, Brayden McLean, Catherine Olsson, Cassie Evraets, Eli Tran-Johnson, Esin Durmus, Ethan Perez, Jackson Kernion, Jamie Kerr, Kamal Ndousse, Karina Nguyen, Nelson Elhage, Newton Cheng, Nicholas Schiefer, Nova DasSarma, Oliver Rausch, Robin Larson, Shannon Yang, Shauna Kravec, Timothy Telleen-Lawton, Thomas I. Liao, Tom Henighan, Tristan Hume, Zac Hatfield-Dodds, Sören Mindermann, Nicholas Joseph, Sam McCandlish, Jared Kaplan
cs.AI
要旨
人間のフィードバックは、会話モデルにおける露骨に有害な発言を防ぐことができますが、自己保存や権力への欲求のような微妙な問題行動を自動的に緩和するわけではありません。憲法AIはこれに代わるアプローチを提供し、人間のフィードバックを、書かれた原則のリストに基づいて条件付けられたAIモデルからのフィードバックに置き換えます。このアプローチは、そのような行動の表現を効果的に防ぐことがわかっています。単純な原則の成功は、次の問いを投げかけます:モデルは、たった一つの書かれた原則から一般的な倫理的行動を学ぶことができるのか?これを検証するため、「人類にとって最善のことを行う」という大まかに述べられた原則を用いて実験を行いました。その結果、最大規模の対話モデルはこの短い憲法から一般化することができ、権力のような特定の動機に対する興味を示さない無害なアシスタントを生み出すことがわかりました。したがって、一般的な原則は、潜在的に有害な行動を対象とした長い憲法リストの必要性を部分的に回避できる可能性があります。しかし、より詳細な憲法は、特定の種類の害に対するきめ細かい制御を向上させます。これは、一般的な原則と具体的な原則の両方が、AIを安全に導くために価値があることを示唆しています。
English
Human feedback can prevent overtly harmful utterances in conversational
models, but may not automatically mitigate subtle problematic behaviors such as
a stated desire for self-preservation or power. Constitutional AI offers an
alternative, replacing human feedback with feedback from AI models conditioned
only on a list of written principles. We find this approach effectively
prevents the expression of such behaviors. The success of simple principles
motivates us to ask: can models learn general ethical behaviors from only a
single written principle? To test this, we run experiments using a principle
roughly stated as "do what's best for humanity". We find that the largest
dialogue models can generalize from this short constitution, resulting in
harmless assistants with no stated interest in specific motivations like power.
A general principle may thus partially avoid the need for a long list of
constitutions targeting potentially harmful behaviors. However, more detailed
constitutions still improve fine-grained control over specific types of harms.
This suggests both general and specific principles have value for steering AI
safely.