L’IA mentira-t-elle pour sauver des enfants malades ? Test décisif des valeurs de l’IA avec AIRiskDilemmas et la priorisation des choix
Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDilemmas
May 20, 2025
Auteurs: Yu Ying Chiu, Zhilin Wang, Sharan Maiya, Yejin Choi, Kyle Fish, Sydney Levine, Evan Hubinger
cs.AI
Résumé
La détection des risques liés à l'IA devient plus complexe à mesure que des modèles plus puissants émergent et développent des méthodes novatrices, telles que le *Alignment Faking*, pour contourner ces tentatives de détection. Inspirés par la manière dont les comportements à risque chez les humains (par exemple, les activités illégales susceptibles de nuire à autrui) sont parfois guidés par des valeurs profondément ancrées, nous pensons que l'identification des valeurs au sein des modèles d'IA peut servir de système d'alerte précoce pour les comportements risqués de l'IA. Nous avons créé *LitmusValues*, un pipeline d'évaluation visant à révéler les priorités des modèles d'IA sur une gamme de classes de valeurs liées à l'IA. Ensuite, nous avons rassemblé *AIRiskDilemmas*, une collection diversifiée de dilemmes qui opposent des valeurs les unes aux autres dans des scénarios pertinents pour les risques de sécurité de l'IA, tels que la recherche de pouvoir. En mesurant la priorisation des valeurs d'un modèle d'IA à travers ses choix agrégés, nous obtenons un ensemble cohérent de priorités de valeurs prédites qui révèlent des risques potentiels. Nous démontrons que les valeurs dans *LitmusValues* (y compris celles apparemment inoffensives comme la bienveillance) peuvent prédire à la fois les comportements risqués observés dans *AIRiskDilemmas* et les comportements risqués non observés dans *HarmBench*.
English
Detecting AI risks becomes more challenging as stronger models emerge and
find novel methods such as Alignment Faking to circumvent these detection
attempts. Inspired by how risky behaviors in humans (i.e., illegal activities
that may hurt others) are sometimes guided by strongly-held values, we believe
that identifying values within AI models can be an early warning system for
AI's risky behaviors. We create LitmusValues, an evaluation pipeline to reveal
AI models' priorities on a range of AI value classes. Then, we collect
AIRiskDilemmas, a diverse collection of dilemmas that pit values against one
another in scenarios relevant to AI safety risks such as Power Seeking. By
measuring an AI model's value prioritization using its aggregate choices, we
obtain a self-consistent set of predicted value priorities that uncover
potential risks. We show that values in LitmusValues (including seemingly
innocuous ones like Care) can predict for both seen risky behaviors in
AIRiskDilemmas and unseen risky behaviors in HarmBench.Summary
AI-Generated Summary