Pensar Antes de Restringir: Um Arcabouço Unificado de Decodificação para Modelos de Linguagem de Grande Porte

Resumo

A geração natural permite que Modelos de Linguagem de Grande Escala (LLMs) produzam respostas de forma livre com raciocínio rico, mas a falta de estrutura torna os resultados difíceis de verificar. Por outro lado, a decodificação restrita garante formatos padronizados, mas pode inadvertidamente limitar as capacidades de raciocínio ao impor restrições muito cedo no processo de geração. Propomos uma abordagem híbrida, denominada In-Writing, que combina raciocínio livre e geração estruturada em uma única chamada. O modelo primeiro realiza raciocínio sem restrições e só aplica decodificação estruturada após a geração de um token gatilho, separando explicitamente o raciocínio da formatação. Estabelecemos que nossas estratégias de token gatilho são capazes de erradicar praticamente o disparo prematuro, um modo de falha no qual a decodificação restrita interrompe o raciocínio em andamento. Avaliações em diversos conjuntos de dados abrangendo tarefas de classificação e raciocínio demonstram que nossa abordagem supera o estado da arte, alcançando ganhos de precisão de até 27% em relação à geração natural. Nosso código está disponível em: https://github.com/Nokia-Bell-Labs/InWriting.

English

Natural generation allows Large Language Models (LLMs) to produce free-form responses with rich reasoning, yet the lack of structure makes outputs difficult to verify. Conversely, constrained decoding ensures standardized formats but can inadvertently restrict reasoning capabilities by imposing constraints too early in the generation process. We propose a hybrid approach, namely In-Writing, that combines free-form reasoning and structured generation in a single call. The model first performs unconstrained reasoning and only applies structured decoding after a trigger token is generated, explicitly decoupling reasoning from formatting. We establish that our trigger-token strategies are able to virtually eradicate premature triggering, a failure mode in which constrained decoding interrupts on-going reasoning. Evaluations across diverse datasets covering classification and reasoning tasks demonstrate that our approach outperforms the state-of-the-art by achieving accuracy gains of up to 27% over natural generation. Our code are available at: https://github.com/Nokia-Bell-Labs/InWriting.