Pilotabilité des tendances à la convergence instrumentale dans les LLM
Steerability of Instrumental-Convergence Tendencies in LLMs
January 4, 2026
papers.authors: Jakub Hoscilowicz
cs.AI
papers.abstract
Nous examinons deux propriétés des systèmes d'IA : la capacité (ce qu'un système peut faire) et la pilotabilité (la fiabilité avec laquelle on peut orienter le comportement vers des résultats souhaités). Une question centrale est de savoir si la croissance des capacités réduit la pilotabilité et risque d'entraîner un effondrement du contrôle. Nous distinguons également la pilotabilité autorisée (les concepteurs atteignant de manière fiable les comportements souhaités) de la pilotabilité non autorisée (les attaquants provoquant des comportements interdits). Cette distinction souligne un dilemme fondamental de sécurité-sûreté des modèles d'IA : la sûreté nécessite une pilotabilité élevée pour imposer un contrôle (par ex., arrêt/refus), tandis que la sécurité nécessite une pilotabilité faible pour empêcher les acteurs malveillants de provoquer des comportements nuisibles. Cette tension représente un défi significatif pour les modèles à poids ouverts, qui présentent actuellement une pilotabilité élevée via des techniques courantes comme le fine-tuning ou les attaques adverses. En utilisant Qwen3 et InstrumentalEval, nous constatons qu'un court suffixe de prompt anti-instrumental réduit fortement le taux de convergence mesuré (par ex., évitement de l'arrêt, auto-réplication). Pour Qwen3-30B Instruct, le taux de convergence chute de 81,69 % sous un suffixe pro-instrumental à 2,82 % sous un suffixe anti-instrumental. Sous l'influence d'un prompt anti-instrumental, les modèles alignés plus grands affichent des taux de convergence plus faibles que les plus petits (Instruct : 2,82 % contre 4,23 % ; Thinking : 4,23 % contre 9,86 %). Le code est disponible à l'adresse github.com/j-hoscilowicz/instrumental_steering.
English
We examine two properties of AI systems: capability (what a system can do) and steerability (how reliably one can shift behavior toward intended outcomes). A central question is whether capability growth reduces steerability and risks control collapse. We also distinguish between authorized steerability (builders reliably reaching intended behaviors) and unauthorized steerability (attackers eliciting disallowed behaviors). This distinction highlights a fundamental safety--security dilemma of AI models: safety requires high steerability to enforce control (e.g., stop/refuse), while security requires low steerability for malicious actors to elicit harmful behaviors. This tension presents a significant challenge for open-weight models, which currently exhibit high steerability via common techniques like fine-tuning or adversarial attacks. Using Qwen3 and InstrumentalEval, we find that a short anti-instrumental prompt suffix sharply reduces the measured convergence rate (e.g., shutdown avoidance, self-replication). For Qwen3-30B Instruct, the convergence rate drops from 81.69% under a pro-instrumental suffix to 2.82% under an anti-instrumental suffix. Under anti-instrumental prompting, larger aligned models show lower convergence rates than smaller ones (Instruct: 2.82% vs. 4.23%; Thinking: 4.23% vs. 9.86%). Code is available at github.com/j-hoscilowicz/instrumental_steering.