Spezifische versus allgemeine Prinzipien für konstitutionelle KI

papers.abstract

Menschliches Feedback kann offensichtlich schädliche Äußerungen in Konversationsmodellen verhindern, aber es kann subtile problematische Verhaltensweisen wie den geäußerten Wunsch nach Selbsterhaltung oder Macht nicht automatisch abmildern. Constitutional AI bietet eine Alternative, indem es menschliches Feedback durch Feedback von KI-Modellen ersetzt, die lediglich auf eine Liste schriftlicher Prinzipien konditioniert sind. Wir stellen fest, dass dieser Ansatz effektiv die Äußerung solcher Verhaltensweisen verhindert. Der Erfolg einfacher Prinzipien motiviert uns zu fragen: Können Modelle allgemeine ethische Verhaltensweisen aus nur einem einzigen schriftlichen Prinzip lernen? Um dies zu testen, führen wir Experimente mit einem Prinzip durch, das grob als „Tue das, was am besten für die Menschheit ist“ formuliert ist. Wir stellen fest, dass die größten Dialogmodelle aus dieser kurzen Verfassung verallgemeinern können, was zu harmlosen Assistenten führt, die kein ausdrückliches Interesse an spezifischen Motivationen wie Macht haben. Ein allgemeines Prinzip könnte somit teilweise die Notwendigkeit einer langen Liste von Verfassungen vermeiden, die potenziell schädliche Verhaltensweisen ansprechen. Dennoch verbessern detailliertere Verfassungen die fein abgestimmte Kontrolle über spezifische Arten von Schäden. Dies deutet darauf hin, dass sowohl allgemeine als auch spezifische Prinzipien einen Wert für die sichere Steuerung von KI haben.

English

Human feedback can prevent overtly harmful utterances in conversational models, but may not automatically mitigate subtle problematic behaviors such as a stated desire for self-preservation or power. Constitutional AI offers an alternative, replacing human feedback with feedback from AI models conditioned only on a list of written principles. We find this approach effectively prevents the expression of such behaviors. The success of simple principles motivates us to ask: can models learn general ethical behaviors from only a single written principle? To test this, we run experiments using a principle roughly stated as "do what's best for humanity". We find that the largest dialogue models can generalize from this short constitution, resulting in harmless assistants with no stated interest in specific motivations like power. A general principle may thus partially avoid the need for a long list of constitutions targeting potentially harmful behaviors. However, more detailed constitutions still improve fine-grained control over specific types of harms. This suggests both general and specific principles have value for steering AI safely.

Spezifische versus allgemeine Prinzipien für konstitutionelle KI

Specific versus General Principles for Constitutional AI

papers.abstract

Support