ChatPaper.aiChatPaper

Specifieke versus algemene principes voor Constitutionele AI

Specific versus General Principles for Constitutional AI

October 20, 2023
Auteurs: Sandipan Kundu, Yuntao Bai, Saurav Kadavath, Amanda Askell, Andrew Callahan, Anna Chen, Anna Goldie, Avital Balwit, Azalia Mirhoseini, Brayden McLean, Catherine Olsson, Cassie Evraets, Eli Tran-Johnson, Esin Durmus, Ethan Perez, Jackson Kernion, Jamie Kerr, Kamal Ndousse, Karina Nguyen, Nelson Elhage, Newton Cheng, Nicholas Schiefer, Nova DasSarma, Oliver Rausch, Robin Larson, Shannon Yang, Shauna Kravec, Timothy Telleen-Lawton, Thomas I. Liao, Tom Henighan, Tristan Hume, Zac Hatfield-Dodds, Sören Mindermann, Nicholas Joseph, Sam McCandlish, Jared Kaplan
cs.AI

Samenvatting

Menselijke feedback kan openlijk schadelijke uitingen in conversatiemodellen voorkomen, maar kan subtiele problematische gedragingen, zoals een uitgesproken verlangen naar zelfbehoud of macht, niet automatisch mitigeren. Constitutionele AI biedt een alternatief door menselijke feedback te vervangen door feedback van AI-modellen die alleen zijn geconditioneerd op een lijst van geschreven principes. We ontdekken dat deze aanpak effectief voorkomt dat dergelijke gedragingen worden geuit. Het succes van eenvoudige principes motiveert ons om te vragen: kunnen modellen algemene ethische gedragingen leren van slechts één geschreven principe? Om dit te testen, voeren we experimenten uit met een principe dat ruwweg wordt geformuleerd als "doe wat het beste is voor de mensheid". We ontdekken dat de grootste dialoogmodellen kunnen generaliseren vanuit deze korte constitutie, wat resulteert in onschadelijke assistenten zonder uitgesproken interesse in specifieke motivaties zoals macht. Een algemeen principe kan zo gedeeltelijk de noodzaak vermijden van een lange lijst van constituties die gericht zijn op potentieel schadelijk gedrag. Meer gedetailleerde constituties verbeteren echter nog steeds de fijnmazige controle over specifieke soorten schade. Dit suggereert dat zowel algemene als specifieke principes waarde hebben voor het veilig sturen van AI.
English
Human feedback can prevent overtly harmful utterances in conversational models, but may not automatically mitigate subtle problematic behaviors such as a stated desire for self-preservation or power. Constitutional AI offers an alternative, replacing human feedback with feedback from AI models conditioned only on a list of written principles. We find this approach effectively prevents the expression of such behaviors. The success of simple principles motivates us to ask: can models learn general ethical behaviors from only a single written principle? To test this, we run experiments using a principle roughly stated as "do what's best for humanity". We find that the largest dialogue models can generalize from this short constitution, resulting in harmless assistants with no stated interest in specific motivations like power. A general principle may thus partially avoid the need for a long list of constitutions targeting potentially harmful behaviors. However, more detailed constitutions still improve fine-grained control over specific types of harms. This suggests both general and specific principles have value for steering AI safely.
PDF32December 15, 2024