Raisonnement au-delà des frontières : Amélioration de l'alignement des spécifications par une délibération en temps de test
Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration
September 18, 2025
papers.authors: Haoran Zhang, Yafu Li, Xuyang Hu, Dongrui Liu, Zhilin Wang, Bo Li, Yu Cheng
cs.AI
papers.abstract
Les grands modèles de langage (LLM) sont de plus en plus appliqués dans divers scénarios réels, chacun étant régit par des spécifications comportementales et de sécurité (spec) sur mesure, adaptées par les utilisateurs ou les organisations. Ces spécifications, catégorisées en spec de sécurité et spec comportementales, varient selon les scénarios et évoluent avec les préférences et les exigences changeantes. Nous formalisons ce défi comme un alignement des spécifications, en nous concentrant sur la capacité des LLM à suivre des spec dynamiques et spécifiques à un scénario, à la fois du point de vue comportemental et de sécurité. Pour relever ce défi, nous proposons Align3, une méthode légère qui utilise la délibération en temps de test (TTD) avec une réflexion et une révision hiérarchiques pour raisonner sur les limites des spécifications. Nous présentons également SpecBench, un benchmark unifié pour mesurer l'alignement des spécifications, couvrant 5 scénarios, 103 spec et 1 500 prompts. Les expériences sur 15 modèles de raisonnement et 18 modèles d'instruction avec plusieurs méthodes TTD, y compris Self-Refine, TPO et MoreThink, donnent trois résultats clés : (i) la délibération en temps de test améliore l'alignement des spécifications ; (ii) Align3 repousse la frontière du compromis entre sécurité et utilité avec un surcoût minimal ; (iii) SpecBench révèle efficacement les écarts d'alignement. Ces résultats mettent en lumière le potentiel de la délibération en temps de test comme stratégie efficace pour raisonner sur les limites des spécifications dans le monde réel.
English
Large language models (LLMs) are increasingly applied in diverse real-world
scenarios, each governed by bespoke behavioral and safety specifications (spec)
custom-tailored by users or organizations. These spec, categorized into
safety-spec and behavioral-spec, vary across scenarios and evolve with changing
preferences and requirements. We formalize this challenge as specification
alignment, focusing on LLMs' ability to follow dynamic, scenario-specific spec
from both behavioral and safety perspectives. To address this challenge, we
propose Align3, a lightweight method that employs Test-Time Deliberation (TTD)
with hierarchical reflection and revision to reason over the specification
boundaries. We further present SpecBench, a unified benchmark for measuring
specification alignment, covering 5 scenarios, 103 spec, and 1,500 prompts.
Experiments on 15 reasoning and 18 instruct models with several TTD methods,
including Self-Refine, TPO, and MoreThink, yield three key findings: (i)
test-time deliberation enhances specification alignment; (ii) Align3 advances
the safety-helpfulness trade-off frontier with minimal overhead; (iii)
SpecBench effectively reveals alignment gaps. These results highlight the
potential of test-time deliberation as an effective strategy for reasoning over
the real-world specification boundaries.