ChatPaper.aiChatPaper

Ragionare oltre i confini: Migliorare l'allineamento delle specifiche attraverso la delibrazione al momento del test

Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration

September 18, 2025
Autori: Haoran Zhang, Yafu Li, Xuyang Hu, Dongrui Liu, Zhilin Wang, Bo Li, Yu Cheng
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono sempre più applicati in scenari reali e diversificati, ciascuno governato da specifiche comportamentali e di sicurezza (spec) personalizzate e adattate dagli utenti o dalle organizzazioni. Queste specifiche, categorizzate in safety-spec e behavioral-spec, variano a seconda degli scenari e si evolvono con il mutare delle preferenze e dei requisiti. Formalizziamo questa sfida come allineamento alle specifiche, concentrandoci sulla capacità degli LLM di seguire specifiche dinamiche e specifiche per lo scenario sia dal punto di vista comportamentale che della sicurezza. Per affrontare questa sfida, proponiamo Align3, un metodo leggero che utilizza la Deliberazione al Momento del Test (TTD) con riflessione e revisione gerarchica per ragionare sui confini delle specifiche. Presentiamo inoltre SpecBench, un benchmark unificato per misurare l'allineamento alle specifiche, che copre 5 scenari, 103 specifiche e 1.500 prompt. Esperimenti su 15 modelli di ragionamento e 18 modelli di istruzione con diversi metodi TTD, tra cui Self-Refine, TPO e MoreThink, producono tre risultati chiave: (i) la deliberazione al momento del test migliora l'allineamento alle specifiche; (ii) Align3 avanza la frontiera del compromesso sicurezza-utilità con un sovraccarico minimo; (iii) SpecBench rivela efficacemente le lacune di allineamento. Questi risultati evidenziano il potenziale della deliberazione al momento del test come strategia efficace per ragionare sui confini delle specifiche nel mondo reale.
English
Large language models (LLMs) are increasingly applied in diverse real-world scenarios, each governed by bespoke behavioral and safety specifications (spec) custom-tailored by users or organizations. These spec, categorized into safety-spec and behavioral-spec, vary across scenarios and evolve with changing preferences and requirements. We formalize this challenge as specification alignment, focusing on LLMs' ability to follow dynamic, scenario-specific spec from both behavioral and safety perspectives. To address this challenge, we propose Align3, a lightweight method that employs Test-Time Deliberation (TTD) with hierarchical reflection and revision to reason over the specification boundaries. We further present SpecBench, a unified benchmark for measuring specification alignment, covering 5 scenarios, 103 spec, and 1,500 prompts. Experiments on 15 reasoning and 18 instruct models with several TTD methods, including Self-Refine, TPO, and MoreThink, yield three key findings: (i) test-time deliberation enhances specification alignment; (ii) Align3 advances the safety-helpfulness trade-off frontier with minimal overhead; (iii) SpecBench effectively reveals alignment gaps. These results highlight the potential of test-time deliberation as an effective strategy for reasoning over the real-world specification boundaries.
PDF523September 19, 2025