CRANE: Ragionamento con generazione vincolata di LLM

Abstract

La generazione di codice, il ragionamento matematico simbolico e altre attività richiedono che i modelli linguistici di grandi dimensioni (LLM) producano output che siano sia sintatticamente che semanticamente corretti. La generazione vincolata di LLM rappresenta una direzione promettente per garantire l'aderenza a grammatiche formali, ma lavori precedenti hanno osservato empiricamente che l'applicazione rigorosa di vincoli formali spesso riduce le capacità di ragionamento degli LLM. In questo lavoro, forniamo innanzitutto una spiegazione teorica del motivo per cui vincolare gli output degli LLM a grammatiche molto restrittive che consentono solo risposte finali sintatticamente valide riduce le capacità di ragionamento del modello. In secondo luogo, dimostriamo che, arricchendo la grammatica di output con regole aggiuntive progettate con cura, è sempre possibile preservare le capacità di ragionamento dell'LLM garantendo al contempo la correttezza sintattica e semantica dei suoi output. Basandoci su queste intuizioni teoriche, proponiamo un algoritmo di decodifica vincolata arricchito con ragionamento, chiamato CRANE, che bilancia efficacemente la correttezza della generazione vincolata con la flessibilità della generazione non vincolata. Esperimenti condotti su diversi LLM open-source e benchmark dimostrano che CRANE supera significativamente sia le strategie di decodifica vincolata all'avanguardia che la decodifica standard non vincolata, mostrando un miglioramento fino a 10 punti percentuali in termini di accuratezza rispetto ai benchmark di riferimento su compiti di ragionamento simbolico complessi come GSM-symbolic e FOLIO.

English

Code generation, symbolic math reasoning, and other tasks require LLMs to produce outputs that are both syntactically and semantically correct. Constrained LLM generation is a promising direction to enforce adherence to formal grammar, but prior works have empirically observed that strict enforcement of formal constraints often diminishes the reasoning capabilities of LLMs. In this work, we first provide a theoretical explanation for why constraining LLM outputs to very restrictive grammars that only allow syntactically valid final answers reduces the reasoning capabilities of the model. Second, we demonstrate that by augmenting the output grammar with carefully designed additional rules, it is always possible to preserve the reasoning capabilities of the LLM while ensuring syntactic and semantic correctness in its outputs. Building on these theoretical insights, we propose a reasoning-augmented constrained decoding algorithm, CRANE, which effectively balances the correctness of constrained generation with the flexibility of unconstrained generation. Experiments on multiple open-source LLMs and benchmarks show that CRANE significantly outperforms both state-of-the-art constrained decoding strategies and standard unconstrained decoding, showing up to 10% points accuracy improvement over baselines on challenging symbolic reasoning benchmarks GSM-symbolic and FOLIO.

CRANE: Ragionamento con generazione vincolata di LLM

CRANE: Reasoning with constrained LLM generation

Abstract

Support