ChatPaper.aiChatPaper

Principes spécifiques versus principes généraux pour l'IA constitutionnelle

Specific versus General Principles for Constitutional AI

October 20, 2023
Auteurs: Sandipan Kundu, Yuntao Bai, Saurav Kadavath, Amanda Askell, Andrew Callahan, Anna Chen, Anna Goldie, Avital Balwit, Azalia Mirhoseini, Brayden McLean, Catherine Olsson, Cassie Evraets, Eli Tran-Johnson, Esin Durmus, Ethan Perez, Jackson Kernion, Jamie Kerr, Kamal Ndousse, Karina Nguyen, Nelson Elhage, Newton Cheng, Nicholas Schiefer, Nova DasSarma, Oliver Rausch, Robin Larson, Shannon Yang, Shauna Kravec, Timothy Telleen-Lawton, Thomas I. Liao, Tom Henighan, Tristan Hume, Zac Hatfield-Dodds, Sören Mindermann, Nicholas Joseph, Sam McCandlish, Jared Kaplan
cs.AI

Résumé

Le feedback humain peut empêcher les énoncés manifestement nuisibles dans les modèles conversationnels, mais ne permet pas nécessairement d'atténuer automatiquement des comportements problématiques plus subtils, tels qu'un désir exprimé d'autopréservation ou de pouvoir. L'IA constitutionnelle propose une alternative, remplaçant le feedback humain par un feedback provenant de modèles d'IA conditionnés uniquement sur une liste de principes écrits. Nous constatons que cette approche empêche efficacement l'expression de tels comportements. Le succès de principes simples nous incite à nous demander : les modèles peuvent-ils apprendre des comportements éthiques généraux à partir d'un seul principe écrit ? Pour tester cela, nous menons des expériences en utilisant un principe formulé approximativement comme "fais ce qui est le mieux pour l'humanité". Nous observons que les plus grands modèles de dialogue peuvent généraliser à partir de cette constitution courte, produisant des assistants inoffensifs sans intérêt déclaré pour des motivations spécifiques comme le pouvoir. Un principe général pourrait ainsi partiellement éviter la nécessité d'une longue liste de constitutions ciblant des comportements potentiellement nuisibles. Cependant, des constitutions plus détaillées améliorent encore le contrôle précis sur des types spécifiques de dommages. Cela suggère que les principes généraux et spécifiques ont tous deux une valeur pour orienter l'IA en toute sécurité.
English
Human feedback can prevent overtly harmful utterances in conversational models, but may not automatically mitigate subtle problematic behaviors such as a stated desire for self-preservation or power. Constitutional AI offers an alternative, replacing human feedback with feedback from AI models conditioned only on a list of written principles. We find this approach effectively prevents the expression of such behaviors. The success of simple principles motivates us to ask: can models learn general ethical behaviors from only a single written principle? To test this, we run experiments using a principle roughly stated as "do what's best for humanity". We find that the largest dialogue models can generalize from this short constitution, resulting in harmless assistants with no stated interest in specific motivations like power. A general principle may thus partially avoid the need for a long list of constitutions targeting potentially harmful behaviors. However, more detailed constitutions still improve fine-grained control over specific types of harms. This suggests both general and specific principles have value for steering AI safely.
PDF32December 15, 2024