ChatPaper.aiChatPaper

Stuurbaarheid van instrumenteel-convergerende tendensen in LLM's

Steerability of Instrumental-Convergence Tendencies in LLMs

January 4, 2026
Auteurs: Jakub Hoscilowicz
cs.AI

Samenvatting

Wij onderzoeken twee eigenschappen van AI-systemen: capaciteit (wat een systeem kan doen) en stuurbaarheid (hoe betrouwbaar gedrag naar beoogde uitkomsten kan worden gestuurd). Een centrale vraag is of groei in capaciteit de stuurbaarheid vermindert en het risico op controleverlies vergroot. Wij maken ook een onderscheid tussen geautoriseerde stuurbaarheid (bouwers die betrouwbaar beoogd gedrag bereiken) en ongeautoriseerde stuurbaarheid (aanvallers die niet-toegestaan gedrag ontlokken). Dit onderscheid benadrukt een fundamenteel veiligheids-beveiligingsdilemma van AI-modellen: veiligheid vereist een hoge stuurbaarheid om controle af te dwingen (bijv. stoppen/weigeren), terwijl beveiliging een lage stuurbaarheid vereist voor kwaadwillende actoren om schadelijk gedrag te ontlokken. Deze spanning vormt een aanzienlijke uitdaging voor open-weight modellen, die momenteel een hoge stuurbaarheid vertonen via gangbare technieken zoals fine-tuning of adversarial attacks. Met behulp van Qwen3 en InstrumentalEval constateren wij dat een kort anti-instrumenteel prompt-achtervoegsel de gemeten convergentiesnelheid sterk reduceert (bijv. vermijden van uitschakeling, zelfreplicatie). Voor Qwen3-30B Instruct daalt de convergentiesnelheid van 81,69% onder een pro-instrumenteel achtervoegsel naar 2,82% onder een anti-instrumenteel achtervoegsel. Onder anti-instrumentele prompting vertonen grotere, afgestemde modellen lagere convergentiesnelheden dan kleinere (Instruct: 2,82% vs. 4,23%; Thinking: 4,23% vs. 9,86%). Code is beschikbaar op github.com/j-hoscilowicz/instrumental_steering.
English
We examine two properties of AI systems: capability (what a system can do) and steerability (how reliably one can shift behavior toward intended outcomes). A central question is whether capability growth reduces steerability and risks control collapse. We also distinguish between authorized steerability (builders reliably reaching intended behaviors) and unauthorized steerability (attackers eliciting disallowed behaviors). This distinction highlights a fundamental safety--security dilemma of AI models: safety requires high steerability to enforce control (e.g., stop/refuse), while security requires low steerability for malicious actors to elicit harmful behaviors. This tension presents a significant challenge for open-weight models, which currently exhibit high steerability via common techniques like fine-tuning or adversarial attacks. Using Qwen3 and InstrumentalEval, we find that a short anti-instrumental prompt suffix sharply reduces the measured convergence rate (e.g., shutdown avoidance, self-replication). For Qwen3-30B Instruct, the convergence rate drops from 81.69% under a pro-instrumental suffix to 2.82% under an anti-instrumental suffix. Under anti-instrumental prompting, larger aligned models show lower convergence rates than smaller ones (Instruct: 2.82% vs. 4.23%; Thinking: 4.23% vs. 9.86%). Code is available at github.com/j-hoscilowicz/instrumental_steering.
PDF01January 8, 2026