Direcionabilidade das Tendências de Convergência Instrumental em LLMs

Resumo

Examinamos duas propriedades dos sistemas de IA: a capacidade (o que um sistema pode fazer) e a dirigibilidade (a confiabilidade com que se pode alterar o comportamento em direção a resultados pretendidos). Uma questão central é saber se o crescimento da capacidade reduz a dirigibilidade e acarreta riscos de colapso do controle. Também distinguimos entre dirigibilidade autorizada (os criadores alcançarem de forma confiável os comportamentos pretendidos) e dirigibilidade não autorizada (os atacantes eliciarem comportamentos não permitidos). Esta distinção destaca um dilema fundamental de segurança-proteção dos modelos de IA: a segurança requer alta dirigibilidade para impor o controle (por exemplo, parar/recusar), enquanto a proteção requer baixa dirigibilidade para que atores maliciosos eliciem comportamentos prejudiciais. Esta tensão representa um desafio significativo para os modelos de pesos abertos, que atualmente exibem alta dirigibilidade por meio de técnicas comuns como *fine-tuning* ou ataques adversariais. Utilizando o Qwen3 e o InstrumentalEval, descobrimos que um sufixo de *prompt* anti-instrumental curto reduz drasticamente a taxa de convergência medida (por exemplo, evitar o desligamento, autorreplicação). Para o Qwen3-30B Instruct, a taxa de convergência cai de 81,69% sob um sufixo pró-instrumental para 2,82% sob um sufixo anti-instrumental. Sob *prompting* anti-instrumental, modelos alinhados maiores apresentam taxas de convergência mais baixas do que os menores (Instruct: 2,82% vs. 4,23%; Thinking: 4,23% vs. 9,86%). O código está disponível em github.com/j-hoscilowicz/instrumental_steering.

English

We examine two properties of AI systems: capability (what a system can do) and steerability (how reliably one can shift behavior toward intended outcomes). A central question is whether capability growth reduces steerability and risks control collapse. We also distinguish between authorized steerability (builders reliably reaching intended behaviors) and unauthorized steerability (attackers eliciting disallowed behaviors). This distinction highlights a fundamental safety--security dilemma of AI models: safety requires high steerability to enforce control (e.g., stop/refuse), while security requires low steerability for malicious actors to elicit harmful behaviors. This tension presents a significant challenge for open-weight models, which currently exhibit high steerability via common techniques like fine-tuning or adversarial attacks. Using Qwen3 and InstrumentalEval, we find that a short anti-instrumental prompt suffix sharply reduces the measured convergence rate (e.g., shutdown avoidance, self-replication). For Qwen3-30B Instruct, the convergence rate drops from 81.69% under a pro-instrumental suffix to 2.82% under an anti-instrumental suffix. Under anti-instrumental prompting, larger aligned models show lower convergence rates than smaller ones (Instruct: 2.82% vs. 4.23%; Thinking: 4.23% vs. 9.86%). Code is available at github.com/j-hoscilowicz/instrumental_steering.

Direcionabilidade das Tendências de Convergência Instrumental em LLMs

Steerability of Instrumental-Convergence Tendencies in LLMs

Resumo

Support