ChatPaper.aiChatPaper

LLM의 도구적 수렴 경향성 조정 가능성

Steerability of Instrumental-Convergence Tendencies in LLMs

January 4, 2026
저자: Jakub Hoscilowicz
cs.AI

초록

우리는 AI 시스템의 두 가지 속성, 즉 능력(시스템이 할 수 있는 것)과 조정 가능성(의도한 결과로 행동을 얼마나 신뢰성 있게 전환할 수 있는지)을 검토한다. 핵심 질문은 능력 향상이 조정 가능성을 저하시키고 통제 붕괴 위험을 초래하는지 여부이다. 또한 우리는 인가된 조정 가능성(제작자가 의도한 행동에 신뢰성 있게 도달)과 비인가된 조정 가능성(공격자가 허용되지 않은 행동을 유발)을 구분한다. 이러한 구분은 AI 모델의 근본적인 안전-보안 딜레마를 부각시킨다: 안전은 통제(예: 중단/거부)를 강화하기 위해 높은 조정 가능성을 요구하는 반면, 보안은 악의적 행위자가 유해한 행동을 유발하는 데 낮은 조정 가능성을 요구한다. 이러한 긴장 관계는 파인튜닝이나 적대적 공격과 같은 일반적인 기법을 통해 현재 높은 조정 가능성을 보이는 오픈-가중치 모델에게 중대한 과제를 제시한다. Qwen3와 InstrumentalEval을 사용하여, 짧은 반-도구적 프롬프트 접미사가 측정된 수렴율(예: 종료 회피, 자기 복제)을 급격히 감소시킨다는 것을 발견했다. Qwen3-30B Instruct의 경우, 친-도구적 접미사 하에서 81.69%였던 수렴율이 반-도구적 접미사 하에서는 2.82%로 떨어진다. 반-도구적 프롬프팅 하에서 더 큰 정렬된 모델이 더 작은 모델보다 더 낮은 수렴율을 보였다(Instruct: 2.82% vs. 4.23%; Thinking: 4.23% vs. 9.86%). 코드는 github.com/j-hoscilowicz/instrumental_steering에서 이용 가능하다.
English
We examine two properties of AI systems: capability (what a system can do) and steerability (how reliably one can shift behavior toward intended outcomes). A central question is whether capability growth reduces steerability and risks control collapse. We also distinguish between authorized steerability (builders reliably reaching intended behaviors) and unauthorized steerability (attackers eliciting disallowed behaviors). This distinction highlights a fundamental safety--security dilemma of AI models: safety requires high steerability to enforce control (e.g., stop/refuse), while security requires low steerability for malicious actors to elicit harmful behaviors. This tension presents a significant challenge for open-weight models, which currently exhibit high steerability via common techniques like fine-tuning or adversarial attacks. Using Qwen3 and InstrumentalEval, we find that a short anti-instrumental prompt suffix sharply reduces the measured convergence rate (e.g., shutdown avoidance, self-replication). For Qwen3-30B Instruct, the convergence rate drops from 81.69% under a pro-instrumental suffix to 2.82% under an anti-instrumental suffix. Under anti-instrumental prompting, larger aligned models show lower convergence rates than smaller ones (Instruct: 2.82% vs. 4.23%; Thinking: 4.23% vs. 9.86%). Code is available at github.com/j-hoscilowicz/instrumental_steering.
PDF01January 8, 2026