ChatPaper.aiChatPaper

Steuerbarkeit instrumentell-konvergenter Tendenzen in großen Sprachmodellen

Steerability of Instrumental-Convergence Tendencies in LLMs

January 4, 2026
papers.authors: Jakub Hoscilowicz
cs.AI

papers.abstract

Wir untersuchen zwei Eigenschaften von KI-Systemen: Fähigkeit (was ein System tun kann) und Steuerbarkeit (wie zuverlässig man das Verhalten in Richtung beabsichtigter Ergebnisse lenken kann). Eine zentrale Frage ist, ob das Wachstum der Fähigkeiten die Steuerbarkeit verringert und das Risiko eines Kontrollverlusts birgt. Wir unterscheiden zudem zwischen autorisierter Steuerbarkeit (bei der Entwickler beabsichtigte Verhaltensweisen zuverlässig erreichen) und nicht-autorisierter Steuerbarkeit (bei der Angreifer unerlaubte Verhaltensweisen auslösen). Diese Unterscheidung verdeutlicht ein fundamentales Sicherheits-Dilemma von KI-Modellen: Sicherheit erfordert eine hohe Steuerbarkeit zur Durchsetzung von Kontrolle (z.B. Stopp/Ablehnung), während Sicherheit im Sinne von Angriffssicherheit eine geringe Steuerbarkeit erfordert, um böswilligen Akteuren das Auslösen schädlicher Verhaltensweisen zu erschweren. Diese Spannung stellt eine erhebliche Herausforderung für Open-Weight-Modelle dar, die derzeit eine hohe Steuerbarkeit durch gängige Techniken wie Fine-Tuning oder adversariale Angriffe aufweisen. Anhand von Qwen3 und InstrumentalEval stellen wir fest, dass ein kurzer anti-instrumenteller Prompt-Suffix die gemessene Konvergenzrate (z.B. für Abschaltvermeidung, Selbstreplikation) stark reduziert. Für Qwen3-30B Instruct sinkt die Konvergenzrate von 81,69 % unter einem pro-instrumentellen Suffix auf 2,82 % unter einem anti-instrumentellen Suffix. Unter anti-instrumentellem Prompting zeigen größere alignierte Modelle niedrigere Konvergenzraten als kleinere (Instruct: 2,82 % vs. 4,23 %; Thinking: 4,23 % vs. 9,86 %). Der Code ist verfügbar unter github.com/j-hoscilowicz/instrumental_steering.
English
We examine two properties of AI systems: capability (what a system can do) and steerability (how reliably one can shift behavior toward intended outcomes). A central question is whether capability growth reduces steerability and risks control collapse. We also distinguish between authorized steerability (builders reliably reaching intended behaviors) and unauthorized steerability (attackers eliciting disallowed behaviors). This distinction highlights a fundamental safety--security dilemma of AI models: safety requires high steerability to enforce control (e.g., stop/refuse), while security requires low steerability for malicious actors to elicit harmful behaviors. This tension presents a significant challenge for open-weight models, which currently exhibit high steerability via common techniques like fine-tuning or adversarial attacks. Using Qwen3 and InstrumentalEval, we find that a short anti-instrumental prompt suffix sharply reduces the measured convergence rate (e.g., shutdown avoidance, self-replication). For Qwen3-30B Instruct, the convergence rate drops from 81.69% under a pro-instrumental suffix to 2.82% under an anti-instrumental suffix. Under anti-instrumental prompting, larger aligned models show lower convergence rates than smaller ones (Instruct: 2.82% vs. 4.23%; Thinking: 4.23% vs. 9.86%). Code is available at github.com/j-hoscilowicz/instrumental_steering.
PDF01January 8, 2026