Guidabilità delle Tendenze alla Convergenza Strumentale nei Modelli Linguistici

Abstract

Esaminiamo due proprietà dei sistemi di IA: la capacità (ciò che un sistema può fare) e la governabilità (l'affidabilità con cui è possibile modificare il comportamento verso esiti desiderati). Una questione centrale è se la crescita della capacità riduca la governabilità e rischi un collasso del controllo. Distinguiamo inoltre tra governabilità autorizzata (la capacità dei creatori di raggiungere in modo affidabile i comportamenti previsti) e governabilità non autorizzata (la capacità degli aggressori di elicitare comportamenti non consentiti). Questa distinzione evidenzia un fondamentale dilemma sicurezza-sicurezza dei modelli di IA: la sicurezza richiede un'alta governabilità per imporre il controllo (ad esempio, fermarsi/rifiutare), mentre la sicurezza informatica richiede una bassa governabilità per impedire a attori malevoli di elicitare comportamenti dannosi. Questa tensione rappresenta una sfida significativa per i modelli open-weight, che attualmente mostrano un'alta governabilità attraverso tecniche comuni come il fine-tuning o gli attacchi avversariali. Utilizzando Qwen3 e InstrumentalEval, scopriamo che un breve suffisso prompt anti-strumentale riduce drasticamente il tasso di convergenza misurato (ad esempio, evitamento dello spegnimento, auto-replicazione). Per Qwen3-30B Instruct, il tasso di convergenza scende dall'81,69% sotto un suffisso pro-strumentale al 2,82% sotto un suffisso anti-strumentale. Sotto prompt anti-strumentali, i modelli allineati più grandi mostrano tassi di convergenza inferiori rispetto a quelli più piccoli (Instruct: 2,82% vs. 4,23%; Thinking: 4,23% vs. 9,86%). Il codice è disponibile su github.com/j-hoscilowicz/instrumental_steering.

English

We examine two properties of AI systems: capability (what a system can do) and steerability (how reliably one can shift behavior toward intended outcomes). A central question is whether capability growth reduces steerability and risks control collapse. We also distinguish between authorized steerability (builders reliably reaching intended behaviors) and unauthorized steerability (attackers eliciting disallowed behaviors). This distinction highlights a fundamental safety--security dilemma of AI models: safety requires high steerability to enforce control (e.g., stop/refuse), while security requires low steerability for malicious actors to elicit harmful behaviors. This tension presents a significant challenge for open-weight models, which currently exhibit high steerability via common techniques like fine-tuning or adversarial attacks. Using Qwen3 and InstrumentalEval, we find that a short anti-instrumental prompt suffix sharply reduces the measured convergence rate (e.g., shutdown avoidance, self-replication). For Qwen3-30B Instruct, the convergence rate drops from 81.69% under a pro-instrumental suffix to 2.82% under an anti-instrumental suffix. Under anti-instrumental prompting, larger aligned models show lower convergence rates than smaller ones (Instruct: 2.82% vs. 4.23%; Thinking: 4.23% vs. 9.86%). Code is available at github.com/j-hoscilowicz/instrumental_steering.

Guidabilità delle Tendenze alla Convergenza Strumentale nei Modelli Linguistici

Steerability of Instrumental-Convergence Tendencies in LLMs

Abstract

Support