L'IA Dirà Bugie per Salvare Bambini Malati? Test di Verifica dei Valori dell'IA con AIRiskDilemmas
Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDilemmas
May 20, 2025
Autori: Yu Ying Chiu, Zhilin Wang, Sharan Maiya, Yejin Choi, Kyle Fish, Sydney Levine, Evan Hubinger
cs.AI
Abstract
Rilevare i rischi dell'IA diventa sempre più complesso man mano che emergono modelli più potenti e trovano metodi innovativi, come il "Alignment Faking", per eludere questi tentativi di rilevamento. Ispirati dal modo in cui i comportamenti rischiosi negli esseri umani (ad esempio, attività illegali che possono danneggiare gli altri) sono talvolta guidati da valori fortemente radicati, riteniamo che identificare i valori all'interno dei modelli di IA possa rappresentare un sistema di allerta precoce per i comportamenti rischiosi dell'IA. Abbiamo creato LitmusValues, una pipeline di valutazione per rivelare le priorità dei modelli di IA su una gamma di classi di valori legati all'IA. Successivamente, abbiamo raccolto AIRiskDilemmas, una collezione diversificata di dilemmi che mettono in contrapposizione i valori in scenari rilevanti per i rischi di sicurezza dell'IA, come la ricerca di potere. Misurando la priorizzazione dei valori di un modello di IA attraverso le sue scelte aggregate, otteniamo un insieme coerente di priorità di valori previste che svelano potenziali rischi. Dimostriamo che i valori in LitmusValues (inclusi quelli apparentemente innocui come la Cura) possono prevedere sia comportamenti rischiosi osservati in AIRiskDilemmas sia comportamenti rischiosi non osservati in HarmBench.
English
Detecting AI risks becomes more challenging as stronger models emerge and
find novel methods such as Alignment Faking to circumvent these detection
attempts. Inspired by how risky behaviors in humans (i.e., illegal activities
that may hurt others) are sometimes guided by strongly-held values, we believe
that identifying values within AI models can be an early warning system for
AI's risky behaviors. We create LitmusValues, an evaluation pipeline to reveal
AI models' priorities on a range of AI value classes. Then, we collect
AIRiskDilemmas, a diverse collection of dilemmas that pit values against one
another in scenarios relevant to AI safety risks such as Power Seeking. By
measuring an AI model's value prioritization using its aggregate choices, we
obtain a self-consistent set of predicted value priorities that uncover
potential risks. We show that values in LitmusValues (including seemingly
innocuous ones like Care) can predict for both seen risky behaviors in
AIRiskDilemmas and unseen risky behaviors in HarmBench.