Redeneren over grenzen: Verbetering van specificatie-uitlijning via testtijd kalibratie
Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration
September 18, 2025
Auteurs: Haoran Zhang, Yafu Li, Xuyang Hu, Dongrui Liu, Zhilin Wang, Bo Li, Yu Cheng
cs.AI
Samenvatting
Grote taalmodellen (LLMs) worden steeds vaker toegepast in diverse real-world scenario's, elk beheerst door specifieke gedrags- en veiligheidsspecificaties (spec) die op maat zijn gemaakt door gebruikers of organisaties. Deze specificaties, onderverdeeld in veiligheidsspec en gedragsspec, variëren per scenario en evolueren met veranderende voorkeuren en vereisten. We formaliseren deze uitdaging als specificatie-uitlijning, waarbij we focussen op het vermogen van LLMs om dynamische, scenario-specifieke specificaties te volgen vanuit zowel gedrags- als veiligheidsperspectieven. Om deze uitdaging aan te pakken, stellen we Align3 voor, een lichtgewicht methode die Test-Time Deliberation (TTD) gebruikt met hiërarchische reflectie en revisie om te redeneren over de grenzen van de specificaties. We introduceren verder SpecBench, een uniforme benchmark voor het meten van specificatie-uitlijning, die 5 scenario's, 103 specificaties en 1.500 prompts omvat. Experimenten met 15 redeneer- en 18 instructiemodellen met verschillende TTD-methoden, waaronder Self-Refine, TPO en MoreThink, leveren drie belangrijke bevindingen op: (i) test-time deliberation verbetert specificatie-uitlijning; (ii) Align3 verlegt de grens van de afweging tussen veiligheid en behulpzaamheid met minimale overhead; (iii) SpecBench onthult effectief uitlijningshiaten. Deze resultaten benadrukken het potentieel van test-time deliberation als een effectieve strategie voor het redeneren over de real-world specificatiegrenzen.
English
Large language models (LLMs) are increasingly applied in diverse real-world
scenarios, each governed by bespoke behavioral and safety specifications (spec)
custom-tailored by users or organizations. These spec, categorized into
safety-spec and behavioral-spec, vary across scenarios and evolve with changing
preferences and requirements. We formalize this challenge as specification
alignment, focusing on LLMs' ability to follow dynamic, scenario-specific spec
from both behavioral and safety perspectives. To address this challenge, we
propose Align3, a lightweight method that employs Test-Time Deliberation (TTD)
with hierarchical reflection and revision to reason over the specification
boundaries. We further present SpecBench, a unified benchmark for measuring
specification alignment, covering 5 scenarios, 103 spec, and 1,500 prompts.
Experiments on 15 reasoning and 18 instruct models with several TTD methods,
including Self-Refine, TPO, and MoreThink, yield three key findings: (i)
test-time deliberation enhances specification alignment; (ii) Align3 advances
the safety-helpfulness trade-off frontier with minimal overhead; (iii)
SpecBench effectively reveals alignment gaps. These results highlight the
potential of test-time deliberation as an effective strategy for reasoning over
the real-world specification boundaries.