Razonamiento sobre límites: Mejorando la alineación de especificaciones mediante la descalibración en tiempo de prueba
Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration
September 18, 2025
Autores: Haoran Zhang, Yafu Li, Xuyang Hu, Dongrui Liu, Zhilin Wang, Bo Li, Yu Cheng
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se están aplicando cada vez más en diversos escenarios del mundo real, cada uno regido por especificaciones de comportamiento y seguridad (spec) personalizadas por usuarios u organizaciones. Estas especificaciones, categorizadas en safety-spec y behavioral-spec, varían según los escenarios y evolucionan con preferencias y requisitos cambiantes. Formalizamos este desafío como alineación de especificaciones, centrándonos en la capacidad de los LLMs para seguir especificaciones dinámicas y específicas del escenario desde perspectivas tanto de comportamiento como de seguridad. Para abordar este desafío, proponemos Align3, un método ligero que emplea Deliberación en Tiempo de Prueba (TTD, por sus siglas en inglés) con reflexión y revisión jerárquica para razonar sobre los límites de las especificaciones. Además, presentamos SpecBench, un benchmark unificado para medir la alineación de especificaciones, que cubre 5 escenarios, 103 especificaciones y 1,500 prompts. Los experimentos con 15 modelos de razonamiento y 18 modelos de instrucción, utilizando varios métodos TTD, incluyendo Self-Refine, TPO y MoreThink, arrojan tres hallazgos clave: (i) la deliberación en tiempo de prueba mejora la alineación de especificaciones; (ii) Align3 avanza en la frontera de equilibrio entre seguridad y utilidad con un mínimo sobrecosto; (iii) SpecBench revela efectivamente las brechas de alineación. Estos resultados destacan el potencial de la deliberación en tiempo de prueba como una estrategia efectiva para razonar sobre los límites de las especificaciones en el mundo real.
English
Large language models (LLMs) are increasingly applied in diverse real-world
scenarios, each governed by bespoke behavioral and safety specifications (spec)
custom-tailored by users or organizations. These spec, categorized into
safety-spec and behavioral-spec, vary across scenarios and evolve with changing
preferences and requirements. We formalize this challenge as specification
alignment, focusing on LLMs' ability to follow dynamic, scenario-specific spec
from both behavioral and safety perspectives. To address this challenge, we
propose Align3, a lightweight method that employs Test-Time Deliberation (TTD)
with hierarchical reflection and revision to reason over the specification
boundaries. We further present SpecBench, a unified benchmark for measuring
specification alignment, covering 5 scenarios, 103 spec, and 1,500 prompts.
Experiments on 15 reasoning and 18 instruct models with several TTD methods,
including Self-Refine, TPO, and MoreThink, yield three key findings: (i)
test-time deliberation enhances specification alignment; (ii) Align3 advances
the safety-helpfulness trade-off frontier with minimal overhead; (iii)
SpecBench effectively reveals alignment gaps. These results highlight the
potential of test-time deliberation as an effective strategy for reasoning over
the real-world specification boundaries.