Redeneren over grenzen: Verbetering van specificatie-uitlijning via testtijd kalibratie

Samenvatting

Grote taalmodellen (LLMs) worden steeds vaker toegepast in diverse real-world scenario's, elk beheerst door specifieke gedrags- en veiligheidsspecificaties (spec) die op maat zijn gemaakt door gebruikers of organisaties. Deze specificaties, onderverdeeld in veiligheidsspec en gedragsspec, variëren per scenario en evolueren met veranderende voorkeuren en vereisten. We formaliseren deze uitdaging als specificatie-uitlijning, waarbij we focussen op het vermogen van LLMs om dynamische, scenario-specifieke specificaties te volgen vanuit zowel gedrags- als veiligheidsperspectieven. Om deze uitdaging aan te pakken, stellen we Align3 voor, een lichtgewicht methode die Test-Time Deliberation (TTD) gebruikt met hiërarchische reflectie en revisie om te redeneren over de grenzen van de specificaties. We introduceren verder SpecBench, een uniforme benchmark voor het meten van specificatie-uitlijning, die 5 scenario's, 103 specificaties en 1.500 prompts omvat. Experimenten met 15 redeneer- en 18 instructiemodellen met verschillende TTD-methoden, waaronder Self-Refine, TPO en MoreThink, leveren drie belangrijke bevindingen op: (i) test-time deliberation verbetert specificatie-uitlijning; (ii) Align3 verlegt de grens van de afweging tussen veiligheid en behulpzaamheid met minimale overhead; (iii) SpecBench onthult effectief uitlijningshiaten. Deze resultaten benadrukken het potentieel van test-time deliberation als een effectieve strategie voor het redeneren over de real-world specificatiegrenzen.

English

Large language models (LLMs) are increasingly applied in diverse real-world scenarios, each governed by bespoke behavioral and safety specifications (spec) custom-tailored by users or organizations. These spec, categorized into safety-spec and behavioral-spec, vary across scenarios and evolve with changing preferences and requirements. We formalize this challenge as specification alignment, focusing on LLMs' ability to follow dynamic, scenario-specific spec from both behavioral and safety perspectives. To address this challenge, we propose Align3, a lightweight method that employs Test-Time Deliberation (TTD) with hierarchical reflection and revision to reason over the specification boundaries. We further present SpecBench, a unified benchmark for measuring specification alignment, covering 5 scenarios, 103 spec, and 1,500 prompts. Experiments on 15 reasoning and 18 instruct models with several TTD methods, including Self-Refine, TPO, and MoreThink, yield three key findings: (i) test-time deliberation enhances specification alignment; (ii) Align3 advances the safety-helpfulness trade-off frontier with minimal overhead; (iii) SpecBench effectively reveals alignment gaps. These results highlight the potential of test-time deliberation as an effective strategy for reasoning over the real-world specification boundaries.

Redeneren over grenzen: Verbetering van specificatie-uitlijning via testtijd kalibratie

Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration

Samenvatting

Support