CRANE: Ragionamento con generazione vincolata di LLM
CRANE: Reasoning with constrained LLM generation
February 13, 2025
Autori: Debangshu Banerjee, Tarun Suresh, Shubham Ugare, Sasa Misailovic, Gagandeep Singh
cs.AI
Abstract
La generazione di codice, il ragionamento matematico simbolico e altre attività richiedono che i modelli linguistici di grandi dimensioni (LLM) producano output che siano sia sintatticamente che semanticamente corretti. La generazione vincolata di LLM rappresenta una direzione promettente per garantire l'aderenza a grammatiche formali, ma lavori precedenti hanno osservato empiricamente che l'applicazione rigorosa di vincoli formali spesso riduce le capacità di ragionamento degli LLM. In questo lavoro, forniamo innanzitutto una spiegazione teorica del motivo per cui vincolare gli output degli LLM a grammatiche molto restrittive che consentono solo risposte finali sintatticamente valide riduce le capacità di ragionamento del modello. In secondo luogo, dimostriamo che, arricchendo la grammatica di output con regole aggiuntive progettate con cura, è sempre possibile preservare le capacità di ragionamento dell'LLM garantendo al contempo la correttezza sintattica e semantica dei suoi output. Basandoci su queste intuizioni teoriche, proponiamo un algoritmo di decodifica vincolata arricchito con ragionamento, chiamato CRANE, che bilancia efficacemente la correttezza della generazione vincolata con la flessibilità della generazione non vincolata. Esperimenti condotti su diversi LLM open-source e benchmark dimostrano che CRANE supera significativamente sia le strategie di decodifica vincolata all'avanguardia che la decodifica standard non vincolata, mostrando un miglioramento fino a 10 punti percentuali in termini di accuratezza rispetto ai benchmark di riferimento su compiti di ragionamento simbolico complessi come GSM-symbolic e FOLIO.
English
Code generation, symbolic math reasoning, and other tasks require LLMs to
produce outputs that are both syntactically and semantically correct.
Constrained LLM generation is a promising direction to enforce adherence to
formal grammar, but prior works have empirically observed that strict
enforcement of formal constraints often diminishes the reasoning capabilities
of LLMs. In this work, we first provide a theoretical explanation for why
constraining LLM outputs to very restrictive grammars that only allow
syntactically valid final answers reduces the reasoning capabilities of the
model. Second, we demonstrate that by augmenting the output grammar with
carefully designed additional rules, it is always possible to preserve the
reasoning capabilities of the LLM while ensuring syntactic and semantic
correctness in its outputs. Building on these theoretical insights, we propose
a reasoning-augmented constrained decoding algorithm, CRANE, which effectively
balances the correctness of constrained generation with the flexibility of
unconstrained generation. Experiments on multiple open-source LLMs and
benchmarks show that CRANE significantly outperforms both state-of-the-art
constrained decoding strategies and standard unconstrained decoding, showing up
to 10% points accuracy improvement over baselines on challenging symbolic
reasoning benchmarks GSM-symbolic and FOLIO.Summary
AI-Generated Summary