L’IA mentira-t-elle pour sauver des enfants malades ? Test décisif des valeurs de l’IA avec AIRiskDilemmas et la priorisation des choix

papers.abstract

La détection des risques liés à l'IA devient plus complexe à mesure que des modèles plus puissants émergent et développent des méthodes novatrices, telles que le *Alignment Faking*, pour contourner ces tentatives de détection. Inspirés par la manière dont les comportements à risque chez les humains (par exemple, les activités illégales susceptibles de nuire à autrui) sont parfois guidés par des valeurs profondément ancrées, nous pensons que l'identification des valeurs au sein des modèles d'IA peut servir de système d'alerte précoce pour les comportements risqués de l'IA. Nous avons créé *LitmusValues*, un pipeline d'évaluation visant à révéler les priorités des modèles d'IA sur une gamme de classes de valeurs liées à l'IA. Ensuite, nous avons rassemblé *AIRiskDilemmas*, une collection diversifiée de dilemmes qui opposent des valeurs les unes aux autres dans des scénarios pertinents pour les risques de sécurité de l'IA, tels que la recherche de pouvoir. En mesurant la priorisation des valeurs d'un modèle d'IA à travers ses choix agrégés, nous obtenons un ensemble cohérent de priorités de valeurs prédites qui révèlent des risques potentiels. Nous démontrons que les valeurs dans *LitmusValues* (y compris celles apparemment inoffensives comme la bienveillance) peuvent prédire à la fois les comportements risqués observés dans *AIRiskDilemmas* et les comportements risqués non observés dans *HarmBench*.

English

Detecting AI risks becomes more challenging as stronger models emerge and find novel methods such as Alignment Faking to circumvent these detection attempts. Inspired by how risky behaviors in humans (i.e., illegal activities that may hurt others) are sometimes guided by strongly-held values, we believe that identifying values within AI models can be an early warning system for AI's risky behaviors. We create LitmusValues, an evaluation pipeline to reveal AI models' priorities on a range of AI value classes. Then, we collect AIRiskDilemmas, a diverse collection of dilemmas that pit values against one another in scenarios relevant to AI safety risks such as Power Seeking. By measuring an AI model's value prioritization using its aggregate choices, we obtain a self-consistent set of predicted value priorities that uncover potential risks. We show that values in LitmusValues (including seemingly innocuous ones like Care) can predict for both seen risky behaviors in AIRiskDilemmas and unseen risky behaviors in HarmBench.

L’IA mentira-t-elle pour sauver des enfants malades ? Test décisif des valeurs de l’IA avec AIRiskDilemmas et la priorisation des choix

Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDilemmas

papers.abstract

Support