Principi Specifici versus Principi Generali per l'Intelligenza Artificiale Costituzionale

Abstract

Il feedback umano può prevenire espressioni apertamente dannose nei modelli conversazionali, ma potrebbe non mitigare automaticamente comportamenti problematici più sottili, come il desiderio dichiarato di autoconservazione o potere. L'Intelligenza Artificiale Costituzionale offre un'alternativa, sostituendo il feedback umano con quello di modelli di IA condizionati solo su una lista di principi scritti. Troviamo che questo approccio previene efficacemente l'espressione di tali comportamenti. Il successo di principi semplici ci spinge a chiedere: i modelli possono apprendere comportamenti etici generali da un unico principio scritto? Per testarlo, conduciamo esperimenti utilizzando un principio approssimativamente formulato come "fai ciò che è meglio per l'umanità". Scopriamo che i più grandi modelli di dialogo possono generalizzare da questa breve costituzione, risultando in assistenti innocui senza alcun interesse dichiarato in motivazioni specifiche come il potere. Un principio generale potrebbe quindi evitare parzialmente la necessità di una lunga lista di costituzioni mirate a comportamenti potenzialmente dannosi. Tuttavia, costituzioni più dettagliate migliorano ancora il controllo fine su specifici tipi di danni. Ciò suggerisce che sia i principi generali che quelli specifici hanno valore per guidare l'IA in modo sicuro.

English

Human feedback can prevent overtly harmful utterances in conversational models, but may not automatically mitigate subtle problematic behaviors such as a stated desire for self-preservation or power. Constitutional AI offers an alternative, replacing human feedback with feedback from AI models conditioned only on a list of written principles. We find this approach effectively prevents the expression of such behaviors. The success of simple principles motivates us to ask: can models learn general ethical behaviors from only a single written principle? To test this, we run experiments using a principle roughly stated as "do what's best for humanity". We find that the largest dialogue models can generalize from this short constitution, resulting in harmless assistants with no stated interest in specific motivations like power. A general principle may thus partially avoid the need for a long list of constitutions targeting potentially harmful behaviors. However, more detailed constitutions still improve fine-grained control over specific types of harms. This suggests both general and specific principles have value for steering AI safely.

Principi Specifici versus Principi Generali per l'Intelligenza Artificiale Costituzionale

Specific versus General Principles for Constitutional AI

Abstract

Support