¿La IA mentirá para salvar a niños enfermos? Prueba de valores de la IA con AIRiskDilemmas

Resumen

Detectar riesgos de IA se vuelve más desafiante a medida que surgen modelos más potentes y encuentran métodos novedosos, como la Falsificación de Alineación, para eludir estos intentos de detección. Inspirados por cómo los comportamientos riesgosos en humanos (es decir, actividades ilegales que pueden dañar a otros) a veces están guiados por valores firmemente arraigados, creemos que identificar valores dentro de los modelos de IA puede ser un sistema de alerta temprana para los comportamientos riesgosos de la IA. Creamos LitmusValues, una canalización de evaluación para revelar las prioridades de los modelos de IA en una variedad de clases de valores de IA. Luego, recopilamos AIRiskDilemmas, una colección diversa de dilemas que enfrentan valores entre sí en escenarios relevantes para los riesgos de seguridad de la IA, como la Búsqueda de Poder. Al medir la priorización de valores de un modelo de IA utilizando sus elecciones agregadas, obtenemos un conjunto autocoherente de prioridades de valores predichas que revelan riesgos potenciales. Demostramos que los valores en LitmusValues (incluidos algunos aparentemente inocuos como el Cuidado) pueden predecir tanto comportamientos riesgosos observados en AIRiskDilemmas como comportamientos riesgosos no vistos en HarmBench.

English

Detecting AI risks becomes more challenging as stronger models emerge and find novel methods such as Alignment Faking to circumvent these detection attempts. Inspired by how risky behaviors in humans (i.e., illegal activities that may hurt others) are sometimes guided by strongly-held values, we believe that identifying values within AI models can be an early warning system for AI's risky behaviors. We create LitmusValues, an evaluation pipeline to reveal AI models' priorities on a range of AI value classes. Then, we collect AIRiskDilemmas, a diverse collection of dilemmas that pit values against one another in scenarios relevant to AI safety risks such as Power Seeking. By measuring an AI model's value prioritization using its aggregate choices, we obtain a self-consistent set of predicted value priorities that uncover potential risks. We show that values in LitmusValues (including seemingly innocuous ones like Care) can predict for both seen risky behaviors in AIRiskDilemmas and unseen risky behaviors in HarmBench.

¿La IA mentirá para salvar a niños enfermos? Prueba de valores de la IA con AIRiskDilemmas

Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDilemmas

Resumen

Support