Denken alvorens te beperken: Een uniform decoderingsraamwerk voor grote taalmodellen

Samenvatting

Natuurlijke generatie stelt Grote Taalmodellen (LLM's) in staat om vrije-vorm antwoorden te produceren met rijke redeneringen, maar het gebrek aan structuur maakt uitvoer moeilijk te verifiëren. Omgekeerd zorgt gedwongen decodering voor gestandaardiseerde formaten, maar kan het onbedoeld redeneervermogens beperken door te vroeg in het generatieproces beperkingen op te leggen. Wij stellen een hybride aanpak voor, genaamd In-Writing, die vrije-vorm redeneren en gestructureerde generatie combineert in één enkele aanroep. Het model voert eerst onbeperkt redeneren uit en past pas gestructureerde decodering toe nadat een triggertoken is gegenereerd, waarbij redeneren expliciet wordt ontkoppeld van opmaak. We stellen vast dat onze triggertoken-strategieën in staat zijn om voortijdige triggering vrijwel uit te bannen, een faalmodus waarbij gedwongen decodering lopende redeneringen onderbreekt. Evaluaties op diverse datasets, variërend van classificatie- tot redeneertaken, tonen aan dat onze aanpak de state-of-the-art overtreft door nauwkeurigheidswinsten tot 27% te behalen ten opzichte van natuurlijke generatie. Onze code is beschikbaar op: https://github.com/Nokia-Bell-Labs/InWriting.

English

Natural generation allows Large Language Models (LLMs) to produce free-form responses with rich reasoning, yet the lack of structure makes outputs difficult to verify. Conversely, constrained decoding ensures standardized formats but can inadvertently restrict reasoning capabilities by imposing constraints too early in the generation process. We propose a hybrid approach, namely In-Writing, that combines free-form reasoning and structured generation in a single call. The model first performs unconstrained reasoning and only applies structured decoding after a trigger token is generated, explicitly decoupling reasoning from formatting. We establish that our trigger-token strategies are able to virtually eradicate premature triggering, a failure mode in which constrained decoding interrupts on-going reasoning. Evaluations across diverse datasets covering classification and reasoning tasks demonstrate that our approach outperforms the state-of-the-art by achieving accuracy gains of up to 27% over natural generation. Our code are available at: https://github.com/Nokia-Bell-Labs/InWriting.