Pensar Antes de Restringir: Un Marco Unificado de Decodificación para Modelos de Lenguaje a Gran Escala

Resumen

La generación natural permite que los Modelos de Lenguaje de Gran Escala (LLMs) produzcan respuestas de forma libre con un razonamiento completo, pero la falta de estructura dificulta la verificación de los resultados. Por el contrario, el descodificado restringido garantiza formatos estandarizados, pero puede limitar inadvertidamente las capacidades de razonamiento al imponer restricciones demasiado temprano en el proceso de generación. Proponemos un enfoque híbrido, denominado In-Writing, que combina razonamiento libre y generación estructurada en una única llamada. El modelo primero realiza un razonamiento sin restricciones y solo aplica la descodificación estructurada después de generar un token desencadenante, desacoplando explícitamente el razonamiento del formateo. Establecemos que nuestras estrategias de token desencadenante son capaces de erradicar prácticamente el disparo prematuro, un modo de fallo en el que la descodificación restringida interrumpe el razonamiento en curso. Las evaluaciones en diversos conjuntos de datos que cubren tareas de clasificación y razonamiento demuestran que nuestro enfoque supera al estado del arte, logrando mejoras de precisión de hasta un 27% en comparación con la generación natural. Nuestro código está disponible en: https://github.com/Nokia-Bell-Labs/InWriting.

English

Natural generation allows Large Language Models (LLMs) to produce free-form responses with rich reasoning, yet the lack of structure makes outputs difficult to verify. Conversely, constrained decoding ensures standardized formats but can inadvertently restrict reasoning capabilities by imposing constraints too early in the generation process. We propose a hybrid approach, namely In-Writing, that combines free-form reasoning and structured generation in a single call. The model first performs unconstrained reasoning and only applies structured decoding after a trigger token is generated, explicitly decoupling reasoning from formatting. We establish that our trigger-token strategies are able to virtually eradicate premature triggering, a failure mode in which constrained decoding interrupts on-going reasoning. Evaluations across diverse datasets covering classification and reasoning tasks demonstrate that our approach outperforms the state-of-the-art by achieving accuracy gains of up to 27% over natural generation. Our code are available at: https://github.com/Nokia-Bell-Labs/InWriting.