Denken über Grenzen hinweg: Verbesserung der Spezifikationsausrichtung durch Testzeit-Kalibrierung
Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration
September 18, 2025
papers.authors: Haoran Zhang, Yafu Li, Xuyang Hu, Dongrui Liu, Zhilin Wang, Bo Li, Yu Cheng
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) werden zunehmend in verschiedenen realen Anwendungsszenarien eingesetzt, die jeweils durch spezifische Verhaltens- und Sicherheitsvorgaben (Spec) gesteuert werden, die von Benutzern oder Organisationen maßgeschneidert sind. Diese Vorgaben, die in Sicherheits-Spec und Verhaltens-Spec kategorisiert werden, variieren je nach Szenario und entwickeln sich mit sich ändernden Präferenzen und Anforderungen weiter. Wir formalisieren diese Herausforderung als Spezifikationsausrichtung, wobei der Fokus auf der Fähigkeit von LLMs liegt, dynamische, szenariospezifische Vorgaben sowohl aus Verhaltens- als auch aus Sicherheitsperspektiven zu befolgen. Um diese Herausforderung zu bewältigen, schlagen wir Align3 vor, eine leichtgewichtige Methode, die Test-Time Deliberation (TTD) mit hierarchischer Reflexion und Überarbeitung einsetzt, um über die Grenzen der Spezifikationen nachzudenken. Wir stellen außerdem SpecBench vor, einen einheitlichen Benchmark zur Messung der Spezifikationsausrichtung, der 5 Szenarien, 103 Vorgaben und 1.500 Prompts abdeckt. Experimente mit 15 Reasoning- und 18 Instruct-Modellen sowie mehreren TTD-Methoden, darunter Self-Refine, TPO und MoreThink, ergeben drei zentrale Erkenntnisse: (i) Test-Time Deliberation verbessert die Spezifikationsausrichtung; (ii) Align3 erweitert die Grenze des Sicherheits-Hilfsbereitschafts-Kompromisses mit minimalem Aufwand; (iii) SpecBench deckt effektiv Ausrichtungslücken auf. Diese Ergebnisse unterstreichen das Potenzial von Test-Time Deliberation als effektive Strategie zur Reflexion über die realen Grenzen von Spezifikationen.
English
Large language models (LLMs) are increasingly applied in diverse real-world
scenarios, each governed by bespoke behavioral and safety specifications (spec)
custom-tailored by users or organizations. These spec, categorized into
safety-spec and behavioral-spec, vary across scenarios and evolve with changing
preferences and requirements. We formalize this challenge as specification
alignment, focusing on LLMs' ability to follow dynamic, scenario-specific spec
from both behavioral and safety perspectives. To address this challenge, we
propose Align3, a lightweight method that employs Test-Time Deliberation (TTD)
with hierarchical reflection and revision to reason over the specification
boundaries. We further present SpecBench, a unified benchmark for measuring
specification alignment, covering 5 scenarios, 103 spec, and 1,500 prompts.
Experiments on 15 reasoning and 18 instruct models with several TTD methods,
including Self-Refine, TPO, and MoreThink, yield three key findings: (i)
test-time deliberation enhances specification alignment; (ii) Align3 advances
the safety-helpfulness trade-off frontier with minimal overhead; (iii)
SpecBench effectively reveals alignment gaps. These results highlight the
potential of test-time deliberation as an effective strategy for reasoning over
the real-world specification boundaries.