Penser avant de contraindre : un cadre de décodage unifié pour les grands modèles de langage

Résumé

La génération naturelle permet aux grands modèles de langage (LLM) de produire des réponses libres avec un raisonnement riche, mais l'absence de structure rend les sorties difficiles à vérifier. À l'inverse, le décodage contraint garantit des formats standardisés mais peut restreindre par inadvertance les capacités de raisonnement en imposant des contraintes trop tôt dans le processus de génération. Nous proposons une approche hybride, nommée In-Writing, qui combine le raisonnement libre et la génération structurée en un seul appel. Le modèle effectue d'abord un raisonnement non contraint et n'applique le décodage structuré qu'après la génération d'un jeton déclencheur, découplant explicitement le raisonnement du formatage. Nous établissons que nos stratégies de jetons déclencheurs sont capables d'éradiquer virtuellement le déclenchement prématuré, un mode de défaillance dans lequel le décodage contraint interrompt le raisonnement en cours. Les évaluations sur divers ensembles de données couvrant des tâches de classification et de raisonnement démontrent que notre approche surpasse l'état de l'art en réalisant des gains de précision allant jusqu'à 27 % par rapport à la génération naturelle. Notre code est disponible à l'adresse suivante : https://github.com/Nokia-Bell-Labs/InWriting.

English

Natural generation allows Large Language Models (LLMs) to produce free-form responses with rich reasoning, yet the lack of structure makes outputs difficult to verify. Conversely, constrained decoding ensures standardized formats but can inadvertently restrict reasoning capabilities by imposing constraints too early in the generation process. We propose a hybrid approach, namely In-Writing, that combines free-form reasoning and structured generation in a single call. The model first performs unconstrained reasoning and only applies structured decoding after a trigger token is generated, explicitly decoupling reasoning from formatting. We establish that our trigger-token strategies are able to virtually eradicate premature triggering, a failure mode in which constrained decoding interrupts on-going reasoning. Evaluations across diverse datasets covering classification and reasoning tasks demonstrate that our approach outperforms the state-of-the-art by achieving accuracy gains of up to 27% over natural generation. Our code are available at: https://github.com/Nokia-Bell-Labs/InWriting.