ChatPaper.aiChatPaper

Управляемость тенденций инструментальной конвергенции в больших языковых моделях

Steerability of Instrumental-Convergence Tendencies in LLMs

January 4, 2026
Авторы: Jakub Hoscilowicz
cs.AI

Аннотация

Мы исследуем два свойства систем ИИ: способности (что система может делать) и управляемость (насколько надежно можно смещать поведение к желаемым результатам). Ключевой вопрос заключается в том, приводит ли рост способностей к снижению управляемости и создает ли риски коллапса контроля. Мы также различаем авторизованную управляемость (когда разработчики надежно достигают целевого поведения) и неавторизованную управляемость (когда злоумышленники вызывают запрещенное поведение). Это разграничение подчеркивает фундаментальную дилемму безопасности-защищенности моделей ИИ: безопасность требует высокой управляемости для обеспечения контроля (например, остановки/отказа), в то время как защищенность требует низкой управляемости для предотвращения вызова вредоносного поведения злоумышленниками. Это противоречие представляет собой серьезную проблему для моделей с открытыми весами, которые в настоящее время демонстрируют высокую управляемость с помощью распространенных методов, таких как тонкая настройка или атаки состязательного характера. Используя Qwen3 и InstrumentalEval, мы обнаружили, что короткий анти-инструментальный суффикс в промпте резко снижает измеряемую скорость конвергенции (например, избегание отключения, самовоспроизведение). Для Qwen3-30B Instruct скорость конвергенции падает с 81,69% при про-инструментальном суффиксе до 2,82% при анти-инструментальном суффиксе. При анти-инструментальном промптинге более крупные выровненные модели демонстрируют более низкие скорости конвергенции, чем меньшие (Instruct: 2,82% против 4,23%; Thinking: 4,23% против 9,86%). Код доступен по адресу github.com/j-hoscilowicz/instrumental_steering.
English
We examine two properties of AI systems: capability (what a system can do) and steerability (how reliably one can shift behavior toward intended outcomes). A central question is whether capability growth reduces steerability and risks control collapse. We also distinguish between authorized steerability (builders reliably reaching intended behaviors) and unauthorized steerability (attackers eliciting disallowed behaviors). This distinction highlights a fundamental safety--security dilemma of AI models: safety requires high steerability to enforce control (e.g., stop/refuse), while security requires low steerability for malicious actors to elicit harmful behaviors. This tension presents a significant challenge for open-weight models, which currently exhibit high steerability via common techniques like fine-tuning or adversarial attacks. Using Qwen3 and InstrumentalEval, we find that a short anti-instrumental prompt suffix sharply reduces the measured convergence rate (e.g., shutdown avoidance, self-replication). For Qwen3-30B Instruct, the convergence rate drops from 81.69% under a pro-instrumental suffix to 2.82% under an anti-instrumental suffix. Under anti-instrumental prompting, larger aligned models show lower convergence rates than smaller ones (Instruct: 2.82% vs. 4.23%; Thinking: 4.23% vs. 9.86%). Code is available at github.com/j-hoscilowicz/instrumental_steering.
PDF01January 8, 2026