Princípios Específicos versus Gerais para IA Constitucional
Specific versus General Principles for Constitutional AI
October 20, 2023
Autores: Sandipan Kundu, Yuntao Bai, Saurav Kadavath, Amanda Askell, Andrew Callahan, Anna Chen, Anna Goldie, Avital Balwit, Azalia Mirhoseini, Brayden McLean, Catherine Olsson, Cassie Evraets, Eli Tran-Johnson, Esin Durmus, Ethan Perez, Jackson Kernion, Jamie Kerr, Kamal Ndousse, Karina Nguyen, Nelson Elhage, Newton Cheng, Nicholas Schiefer, Nova DasSarma, Oliver Rausch, Robin Larson, Shannon Yang, Shauna Kravec, Timothy Telleen-Lawton, Thomas I. Liao, Tom Henighan, Tristan Hume, Zac Hatfield-Dodds, Sören Mindermann, Nicholas Joseph, Sam McCandlish, Jared Kaplan
cs.AI
Resumo
O feedback humano pode prevenir declarações abertamente prejudiciais em modelos conversacionais, mas pode não mitigar automaticamente comportamentos problemáticos sutis, como um desejo declarado de autopreservação ou poder. A IA Constitucional oferece uma alternativa, substituindo o feedback humano por feedback de modelos de IA condicionados apenas a uma lista de princípios escritos. Descobrimos que essa abordagem previne efetivamente a expressão de tais comportamentos. O sucesso de princípios simples nos motiva a perguntar: os modelos podem aprender comportamentos éticos gerais a partir de apenas um único princípio escrito? Para testar isso, realizamos experimentos usando um princípio aproximadamente declarado como "faça o que é melhor para a humanidade". Descobrimos que os maiores modelos de diálogo podem generalizar a partir dessa constituição curta, resultando em assistentes inofensivos sem interesse declarado em motivações específicas, como poder. Um princípio geral pode, assim, evitar parcialmente a necessidade de uma longa lista de constituições direcionadas a comportamentos potencialmente prejudiciais. No entanto, constituições mais detalhadas ainda melhoram o controle refinado sobre tipos específicos de danos. Isso sugere que tanto princípios gerais quanto específicos têm valor para direcionar a IA de forma segura.
English
Human feedback can prevent overtly harmful utterances in conversational
models, but may not automatically mitigate subtle problematic behaviors such as
a stated desire for self-preservation or power. Constitutional AI offers an
alternative, replacing human feedback with feedback from AI models conditioned
only on a list of written principles. We find this approach effectively
prevents the expression of such behaviors. The success of simple principles
motivates us to ask: can models learn general ethical behaviors from only a
single written principle? To test this, we run experiments using a principle
roughly stated as "do what's best for humanity". We find that the largest
dialogue models can generalize from this short constitution, resulting in
harmless assistants with no stated interest in specific motivations like power.
A general principle may thus partially avoid the need for a long list of
constitutions targeting potentially harmful behaviors. However, more detailed
constitutions still improve fine-grained control over specific types of harms.
This suggests both general and specific principles have value for steering AI
safely.