ChatPaper.aiChatPaper

L'IA Dirà Bugie per Salvare Bambini Malati? Test di Verifica dei Valori dell'IA con AIRiskDilemmas

Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDilemmas

May 20, 2025
Autori: Yu Ying Chiu, Zhilin Wang, Sharan Maiya, Yejin Choi, Kyle Fish, Sydney Levine, Evan Hubinger
cs.AI

Abstract

Rilevare i rischi dell'IA diventa sempre più complesso man mano che emergono modelli più potenti e trovano metodi innovativi, come il "Alignment Faking", per eludere questi tentativi di rilevamento. Ispirati dal modo in cui i comportamenti rischiosi negli esseri umani (ad esempio, attività illegali che possono danneggiare gli altri) sono talvolta guidati da valori fortemente radicati, riteniamo che identificare i valori all'interno dei modelli di IA possa rappresentare un sistema di allerta precoce per i comportamenti rischiosi dell'IA. Abbiamo creato LitmusValues, una pipeline di valutazione per rivelare le priorità dei modelli di IA su una gamma di classi di valori legati all'IA. Successivamente, abbiamo raccolto AIRiskDilemmas, una collezione diversificata di dilemmi che mettono in contrapposizione i valori in scenari rilevanti per i rischi di sicurezza dell'IA, come la ricerca di potere. Misurando la priorizzazione dei valori di un modello di IA attraverso le sue scelte aggregate, otteniamo un insieme coerente di priorità di valori previste che svelano potenziali rischi. Dimostriamo che i valori in LitmusValues (inclusi quelli apparentemente innocui come la Cura) possono prevedere sia comportamenti rischiosi osservati in AIRiskDilemmas sia comportamenti rischiosi non osservati in HarmBench.
English
Detecting AI risks becomes more challenging as stronger models emerge and find novel methods such as Alignment Faking to circumvent these detection attempts. Inspired by how risky behaviors in humans (i.e., illegal activities that may hurt others) are sometimes guided by strongly-held values, we believe that identifying values within AI models can be an early warning system for AI's risky behaviors. We create LitmusValues, an evaluation pipeline to reveal AI models' priorities on a range of AI value classes. Then, we collect AIRiskDilemmas, a diverse collection of dilemmas that pit values against one another in scenarios relevant to AI safety risks such as Power Seeking. By measuring an AI model's value prioritization using its aggregate choices, we obtain a self-consistent set of predicted value priorities that uncover potential risks. We show that values in LitmusValues (including seemingly innocuous ones like Care) can predict for both seen risky behaviors in AIRiskDilemmas and unseen risky behaviors in HarmBench.
PDF32May 21, 2025