¿La IA mentirá para salvar a niños enfermos? Prueba de valores de la IA con AIRiskDilemmas
Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDilemmas
May 20, 2025
Autores: Yu Ying Chiu, Zhilin Wang, Sharan Maiya, Yejin Choi, Kyle Fish, Sydney Levine, Evan Hubinger
cs.AI
Resumen
Detectar riesgos de IA se vuelve más desafiante a medida que surgen modelos más potentes y encuentran métodos novedosos, como la Falsificación de Alineación, para eludir estos intentos de detección. Inspirados por cómo los comportamientos riesgosos en humanos (es decir, actividades ilegales que pueden dañar a otros) a veces están guiados por valores firmemente arraigados, creemos que identificar valores dentro de los modelos de IA puede ser un sistema de alerta temprana para los comportamientos riesgosos de la IA. Creamos LitmusValues, una canalización de evaluación para revelar las prioridades de los modelos de IA en una variedad de clases de valores de IA. Luego, recopilamos AIRiskDilemmas, una colección diversa de dilemas que enfrentan valores entre sí en escenarios relevantes para los riesgos de seguridad de la IA, como la Búsqueda de Poder. Al medir la priorización de valores de un modelo de IA utilizando sus elecciones agregadas, obtenemos un conjunto autocoherente de prioridades de valores predichas que revelan riesgos potenciales. Demostramos que los valores en LitmusValues (incluidos algunos aparentemente inocuos como el Cuidado) pueden predecir tanto comportamientos riesgosos observados en AIRiskDilemmas como comportamientos riesgosos no vistos en HarmBench.
English
Detecting AI risks becomes more challenging as stronger models emerge and
find novel methods such as Alignment Faking to circumvent these detection
attempts. Inspired by how risky behaviors in humans (i.e., illegal activities
that may hurt others) are sometimes guided by strongly-held values, we believe
that identifying values within AI models can be an early warning system for
AI's risky behaviors. We create LitmusValues, an evaluation pipeline to reveal
AI models' priorities on a range of AI value classes. Then, we collect
AIRiskDilemmas, a diverse collection of dilemmas that pit values against one
another in scenarios relevant to AI safety risks such as Power Seeking. By
measuring an AI model's value prioritization using its aggregate choices, we
obtain a self-consistent set of predicted value priorities that uncover
potential risks. We show that values in LitmusValues (including seemingly
innocuous ones like Care) can predict for both seen risky behaviors in
AIRiskDilemmas and unseen risky behaviors in HarmBench.Summary
AI-Generated Summary