경계를 넘어 추론하기: 테스트 시점 보정을 통한 명세 정렬 강화
Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration
September 18, 2025
저자: Haoran Zhang, Yafu Li, Xuyang Hu, Dongrui Liu, Zhilin Wang, Bo Li, Yu Cheng
cs.AI
초록
대형 언어 모델(LLM)은 다양한 실제 시나리오에 점점 더 많이 적용되고 있으며, 각 시나리오는 사용자나 조직이 맞춤화한 행동 및 안전 사양(spec)에 의해 규제됩니다. 이러한 사양은 안전 사양(safety-spec)과 행동 사양(behavioral-spec)으로 분류되며, 시나리오마다 다르고 변화하는 선호도와 요구 사항에 따라 진화합니다. 우리는 이러한 문제를 사양 정렬(specification alignment)로 공식화하며, LLM이 행동적 및 안전적 관점에서 동적이고 시나리오별 사양을 따르는 능력에 초점을 맞춥니다. 이 문제를 해결하기 위해, 우리는 계층적 반성과 수정을 통한 테스트 타임 숙고(Test-Time Deliberation, TTD)를 사용하여 사양 경계를 추론하는 경량화된 방법인 Align3를 제안합니다. 또한, 5개 시나리오, 103개 사양, 1,500개의 프롬프트를 포함한 통합 벤치마크인 SpecBench를 소개합니다. Self-Refine, TPO, MoreThink 등 여러 TTD 방법을 사용하여 15개의 추론 모델과 18개의 지시 모델에 대한 실험을 통해 세 가지 주요 결과를 얻었습니다: (i) 테스트 타임 숙고는 사양 정렬을 향상시킵니다; (ii) Align3는 최소한의 오버헤드로 안전성과 도움성 간의 트레이드오프 경계를 발전시킵니다; (iii) SpecBench는 정렬 격차를 효과적으로 드러냅니다. 이러한 결과는 테스트 타임 숙고가 실제 세계의 사양 경계를 추론하는 효과적인 전략으로서의 잠재력을 강조합니다.
English
Large language models (LLMs) are increasingly applied in diverse real-world
scenarios, each governed by bespoke behavioral and safety specifications (spec)
custom-tailored by users or organizations. These spec, categorized into
safety-spec and behavioral-spec, vary across scenarios and evolve with changing
preferences and requirements. We formalize this challenge as specification
alignment, focusing on LLMs' ability to follow dynamic, scenario-specific spec
from both behavioral and safety perspectives. To address this challenge, we
propose Align3, a lightweight method that employs Test-Time Deliberation (TTD)
with hierarchical reflection and revision to reason over the specification
boundaries. We further present SpecBench, a unified benchmark for measuring
specification alignment, covering 5 scenarios, 103 spec, and 1,500 prompts.
Experiments on 15 reasoning and 18 instruct models with several TTD methods,
including Self-Refine, TPO, and MoreThink, yield three key findings: (i)
test-time deliberation enhances specification alignment; (ii) Align3 advances
the safety-helpfulness trade-off frontier with minimal overhead; (iii)
SpecBench effectively reveals alignment gaps. These results highlight the
potential of test-time deliberation as an effective strategy for reasoning over
the real-world specification boundaries.