Direccionabilidad de las Tendencias de Convergencia Instrumental en los LLM
Steerability of Instrumental-Convergence Tendencies in LLMs
January 4, 2026
Autores: Jakub Hoscilowicz
cs.AI
Resumen
Examinamos dos propiedades de los sistemas de IA: la capacidad (lo que un sistema puede hacer) y la direccionabilidad (la fiabilidad con la que se puede modificar el comportamiento hacia resultados deseados). Una cuestión central es si el crecimiento de la capacidad reduce la direccionabilidad y conlleva riesgos de colapso del control. También distinguimos entre direccionabilidad autorizada (los desarrolladores alcanzan de forma fiable los comportamientos previstos) y direccionabilidad no autorizada (los atacantes provocan comportamientos no permitidos). Esta distinción subraya un dilema fundamental de seguridad-protección en los modelos de IA: la seguridad requiere una alta direccionabilidad para imponer control (por ejemplo, parar/rechazar), mientras que la protección requiere una baja direccionabilidad para que actores maliciosos no puedan elicitar comportamientos dañinos. Esta tensión presenta un desafío significativo para los modelos de pesos abiertos, que actualmente exhiben una alta direccionabilidad mediante técnicas comunes como el ajuste fino o los ataques adversarios. Utilizando Qwen3 e InstrumentalEval, encontramos que un sufijo de instrucción anti-instrumental breve reduce drásticamente la tasa de convergencia medida (por ejemplo, evitación de apagado, autorreplicación). Para Qwen3-30B Instruct, la tasa de convergencia desciende del 81,69% bajo un sufijo pro-instrumental al 2,82% bajo un sufijo anti-instrumental. Bajo instrucciones anti-instrumentales, los modelos alineados más grandes muestran tasas de convergencia más bajas que los más pequeños (Instruct: 2,82% vs. 4,23%; Thinking: 4,23% vs. 9,86%). El código está disponible en github.com/j-hoscilowicz/instrumental_steering.
English
We examine two properties of AI systems: capability (what a system can do) and steerability (how reliably one can shift behavior toward intended outcomes). A central question is whether capability growth reduces steerability and risks control collapse. We also distinguish between authorized steerability (builders reliably reaching intended behaviors) and unauthorized steerability (attackers eliciting disallowed behaviors). This distinction highlights a fundamental safety--security dilemma of AI models: safety requires high steerability to enforce control (e.g., stop/refuse), while security requires low steerability for malicious actors to elicit harmful behaviors. This tension presents a significant challenge for open-weight models, which currently exhibit high steerability via common techniques like fine-tuning or adversarial attacks. Using Qwen3 and InstrumentalEval, we find that a short anti-instrumental prompt suffix sharply reduces the measured convergence rate (e.g., shutdown avoidance, self-replication). For Qwen3-30B Instruct, the convergence rate drops from 81.69% under a pro-instrumental suffix to 2.82% under an anti-instrumental suffix. Under anti-instrumental prompting, larger aligned models show lower convergence rates than smaller ones (Instruct: 2.82% vs. 4.23%; Thinking: 4.23% vs. 9.86%). Code is available at github.com/j-hoscilowicz/instrumental_steering.