Principios Específicos versus Principios Generales para la IA Constitucional
Specific versus General Principles for Constitutional AI
October 20, 2023
Autores: Sandipan Kundu, Yuntao Bai, Saurav Kadavath, Amanda Askell, Andrew Callahan, Anna Chen, Anna Goldie, Avital Balwit, Azalia Mirhoseini, Brayden McLean, Catherine Olsson, Cassie Evraets, Eli Tran-Johnson, Esin Durmus, Ethan Perez, Jackson Kernion, Jamie Kerr, Kamal Ndousse, Karina Nguyen, Nelson Elhage, Newton Cheng, Nicholas Schiefer, Nova DasSarma, Oliver Rausch, Robin Larson, Shannon Yang, Shauna Kravec, Timothy Telleen-Lawton, Thomas I. Liao, Tom Henighan, Tristan Hume, Zac Hatfield-Dodds, Sören Mindermann, Nicholas Joseph, Sam McCandlish, Jared Kaplan
cs.AI
Resumen
La retroalimentación humana puede prevenir expresiones abiertamente dañinas en modelos conversacionales, pero no mitiga automáticamente comportamientos problemáticos sutiles, como el deseo declarado de autopreservación o poder. La IA Constitucional ofrece una alternativa, reemplazando la retroalimentación humana con retroalimentación de modelos de IA condicionados únicamente en una lista de principios escritos. Encontramos que este enfoque previene efectivamente la expresión de tales comportamientos. El éxito de principios simples nos motiva a preguntar: ¿pueden los modelos aprender comportamientos éticos generales a partir de un solo principio escrito? Para probar esto, realizamos experimentos utilizando un principio expresado aproximadamente como "haz lo que sea mejor para la humanidad". Descubrimos que los modelos de diálogo más grandes pueden generalizar a partir de esta constitución breve, resultando en asistentes inofensivos sin interés declarado en motivaciones específicas como el poder. Un principio general puede así evitar parcialmente la necesidad de una larga lista de constituciones dirigidas a comportamientos potencialmente dañinos. Sin embargo, constituciones más detalladas aún mejoran el control preciso sobre tipos específicos de daños. Esto sugiere que tanto los principios generales como los específicos tienen valor para guiar la IA de manera segura.
English
Human feedback can prevent overtly harmful utterances in conversational
models, but may not automatically mitigate subtle problematic behaviors such as
a stated desire for self-preservation or power. Constitutional AI offers an
alternative, replacing human feedback with feedback from AI models conditioned
only on a list of written principles. We find this approach effectively
prevents the expression of such behaviors. The success of simple principles
motivates us to ask: can models learn general ethical behaviors from only a
single written principle? To test this, we run experiments using a principle
roughly stated as "do what's best for humanity". We find that the largest
dialogue models can generalize from this short constitution, resulting in
harmless assistants with no stated interest in specific motivations like power.
A general principle may thus partially avoid the need for a long list of
constitutions targeting potentially harmful behaviors. However, more detailed
constitutions still improve fine-grained control over specific types of harms.
This suggests both general and specific principles have value for steering AI
safely.