Raciocínio além das Fronteiras: Aprimorando o Alinhamento de Especificações via Descalibração em Tempo de Teste

Resumo

Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais aplicados em diversos cenários do mundo real, cada um regido por especificações comportamentais e de segurança (spec) personalizadas pelos usuários ou organizações. Essas spec, categorizadas em safety-spec e behavioral-spec, variam entre cenários e evoluem com mudanças nas preferências e requisitos. Formalizamos esse desafio como alinhamento de especificações, focando na capacidade dos LLMs de seguir spec dinâmicas e específicas de cenário, tanto do ponto de vista comportamental quanto de segurança. Para abordar esse desafio, propomos o Align3, um método leve que emprega Deliberação em Tempo de Teste (TTD) com reflexão e revisão hierárquica para raciocinar sobre os limites das especificações. Além disso, apresentamos o SpecBench, um benchmark unificado para medir o alinhamento de especificações, abrangendo 5 cenários, 103 spec e 1.500 prompts. Experimentos com 15 modelos de raciocínio e 18 modelos de instrução, utilizando vários métodos de TTD, incluindo Self-Refine, TPO e MoreThink, resultam em três descobertas principais: (i) a deliberação em tempo de teste melhora o alinhamento de especificações; (ii) o Align3 avança a fronteira de compensação entre segurança e utilidade com sobrecarga mínima; (iii) o SpecBench revela efetivamente lacunas de alinhamento. Esses resultados destacam o potencial da deliberação em tempo de teste como uma estratégia eficaz para raciocinar sobre os limites das especificações do mundo real.

English

Large language models (LLMs) are increasingly applied in diverse real-world scenarios, each governed by bespoke behavioral and safety specifications (spec) custom-tailored by users or organizations. These spec, categorized into safety-spec and behavioral-spec, vary across scenarios and evolve with changing preferences and requirements. We formalize this challenge as specification alignment, focusing on LLMs' ability to follow dynamic, scenario-specific spec from both behavioral and safety perspectives. To address this challenge, we propose Align3, a lightweight method that employs Test-Time Deliberation (TTD) with hierarchical reflection and revision to reason over the specification boundaries. We further present SpecBench, a unified benchmark for measuring specification alignment, covering 5 scenarios, 103 spec, and 1,500 prompts. Experiments on 15 reasoning and 18 instruct models with several TTD methods, including Self-Refine, TPO, and MoreThink, yield three key findings: (i) test-time deliberation enhances specification alignment; (ii) Align3 advances the safety-helpfulness trade-off frontier with minimal overhead; (iii) SpecBench effectively reveals alignment gaps. These results highlight the potential of test-time deliberation as an effective strategy for reasoning over the real-world specification boundaries.

Raciocínio além das Fronteiras: Aprimorando o Alinhamento de Especificações via Descalibração em Tempo de Teste

Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration

Resumo

Support