ChatPaper.aiChatPaper

Специфические и общие принципы для конституционного ИИ

Specific versus General Principles for Constitutional AI

October 20, 2023
Авторы: Sandipan Kundu, Yuntao Bai, Saurav Kadavath, Amanda Askell, Andrew Callahan, Anna Chen, Anna Goldie, Avital Balwit, Azalia Mirhoseini, Brayden McLean, Catherine Olsson, Cassie Evraets, Eli Tran-Johnson, Esin Durmus, Ethan Perez, Jackson Kernion, Jamie Kerr, Kamal Ndousse, Karina Nguyen, Nelson Elhage, Newton Cheng, Nicholas Schiefer, Nova DasSarma, Oliver Rausch, Robin Larson, Shannon Yang, Shauna Kravec, Timothy Telleen-Lawton, Thomas I. Liao, Tom Henighan, Tristan Hume, Zac Hatfield-Dodds, Sören Mindermann, Nicholas Joseph, Sam McCandlish, Jared Kaplan
cs.AI

Аннотация

Обратная связь от людей может предотвратить явно вредные высказывания в диалоговых моделях, но не всегда автоматически устраняет более тонкие проблемные проявления, такие как заявленное стремление к самосохранению или власти. Конституционный ИИ предлагает альтернативу, заменяя человеческую обратную связь на отзывы от ИИ-моделей, обученных только на основе списка письменных принципов. Мы обнаруживаем, что такой подход эффективно предотвращает проявление подобных поведений. Успех простых принципов побуждает нас задаться вопросом: могут ли модели усвоить общие этические нормы, опираясь лишь на один письменный принцип? Чтобы проверить это, мы проводим эксперименты, используя принцип, грубо сформулированный как "делай то, что лучше для человечества". Мы выясняем, что крупнейшие диалоговые модели способны обобщать на основе этой краткой конституции, создавая безвредных помощников, не проявляющих заявленного интереса к конкретным мотивам, таким как власть. Таким образом, общий принцип может частично устранить необходимость в длинном списке конституций, направленных на предотвращение потенциально вредных поведений. Однако более детализированные конституции всё же улучшают точный контроль над конкретными типами вреда. Это говорит о том, что как общие, так и специфические принципы имеют ценность для безопасного управления ИИ.
English
Human feedback can prevent overtly harmful utterances in conversational models, but may not automatically mitigate subtle problematic behaviors such as a stated desire for self-preservation or power. Constitutional AI offers an alternative, replacing human feedback with feedback from AI models conditioned only on a list of written principles. We find this approach effectively prevents the expression of such behaviors. The success of simple principles motivates us to ask: can models learn general ethical behaviors from only a single written principle? To test this, we run experiments using a principle roughly stated as "do what's best for humanity". We find that the largest dialogue models can generalize from this short constitution, resulting in harmless assistants with no stated interest in specific motivations like power. A general principle may thus partially avoid the need for a long list of constitutions targeting potentially harmful behaviors. However, more detailed constitutions still improve fine-grained control over specific types of harms. This suggests both general and specific principles have value for steering AI safely.
PDF32December 15, 2024