추론 시간 계산량 증가가 실제로 강건성을 향상시키는가?
Does More Inference-Time Compute Really Help Robustness?
July 21, 2025
저자: Tong Wu, Chong Xiang, Jiachen T. Wang, Weichen Yu, Chawin Sitawarin, Vikash Sehwag, Prateek Mittal
cs.AI
초록
최근 Zaremba 등은 추론 시 계산량을 증가시키는 것이 대규모 독점 추론 대형 언어 모델(LLM)의 견고성을 향상시킨다는 것을 입증했다. 본 논문에서는 먼저 소규모 오픈소스 모델(예: DeepSeek R1, Qwen3, Phi-reasoning)도 간단한 예산 강제 전략을 통해 추론 시 스케일링의 이점을 얻을 수 있음을 보인다. 더 중요한 것은, 우리는 기존 연구에서 암묵적으로 가정한 바, 즉 중간 추론 단계가 공격자로부터 숨겨져 있다는 가정을 밝히고 비판적으로 검토한다. 이 가정을 완화함으로써, 우리는 중요한 보안 위험을 식별하고, 이는 직관적으로 동기 부여되고 경험적으로 검증된 역 스케일링 법칙으로 나타난다: 중간 추론 단계가 명시적으로 접근 가능해지면, 증가된 추론 시 계산량은 모델의 견고성을 지속적으로 감소시킨다. 마지막으로, 우리는 도구 통합 추론 및 고급 추론 추출 공격과 같은 공격에 여전히 취약한 숨겨진 추론 체인을 가진 모델의 실제 시나리오를 논의한다. 우리의 연구 결과는 추론 시 스케일링의 견고성 이점이 공격 설정 및 배포 컨텍스트에 크게 의존한다는 것을 종합적으로 입증한다. 우리는 보안이 중요한 실제 애플리케이션에서 추론 시 스케일링을 적용하기 전에 이러한 미묘한 절충점을 신중히 고려할 것을 실무자들에게 촉구한다.
English
Recently, Zaremba et al. demonstrated that increasing inference-time
computation improves robustness in large proprietary reasoning LLMs. In this
paper, we first show that smaller-scale, open-source models (e.g., DeepSeek R1,
Qwen3, Phi-reasoning) can also benefit from inference-time scaling using a
simple budget forcing strategy. More importantly, we reveal and critically
examine an implicit assumption in prior work: intermediate reasoning steps are
hidden from adversaries. By relaxing this assumption, we identify an important
security risk, intuitively motivated and empirically verified as an inverse
scaling law: if intermediate reasoning steps become explicitly accessible,
increased inference-time computation consistently reduces model robustness.
Finally, we discuss practical scenarios where models with hidden reasoning
chains are still vulnerable to attacks, such as models with tool-integrated
reasoning and advanced reasoning extraction attacks. Our findings collectively
demonstrate that the robustness benefits of inference-time scaling depend
heavily on the adversarial setting and deployment context. We urge
practitioners to carefully weigh these subtle trade-offs before applying
inference-time scaling in security-sensitive, real-world applications.