CRANE: Raciocínio com geração de LLM restrita
CRANE: Reasoning with constrained LLM generation
February 13, 2025
Autores: Debangshu Banerjee, Tarun Suresh, Shubham Ugare, Sasa Misailovic, Gagandeep Singh
cs.AI
Resumo
A geração de código, o raciocínio matemático simbólico e outras tarefas exigem que os LLMs produzam saídas que sejam sintática e semanticamente corretas. A geração restrita de LLMs é uma direção promissora para garantir a adesão a gramáticas formais, mas trabalhos anteriores observaram empiricamente que a aplicação rigorosa de restrições formais frequentemente diminui as capacidades de raciocínio dos LLMs. Neste trabalho, primeiro fornecemos uma explicação teórica para o motivo pelo qual restringir as saídas dos LLMs a gramáticas muito restritivas, que permitem apenas respostas finais sintaticamente válidas, reduz as capacidades de raciocínio do modelo. Em segundo lugar, demonstramos que, ao expandir a gramática de saída com regras adicionais cuidadosamente projetadas, é sempre possível preservar as capacidades de raciocínio do LLM enquanto se garante a correção sintática e semântica em suas saídas. Com base nessas percepções teóricas, propomos um algoritmo de decodificação restrita aumentada por raciocínio, o CRANE, que equilibra efetivamente a correção da geração restrita com a flexibilidade da geração não restrita. Experimentos com múltiplos LLMs de código aberto e benchmarks mostram que o CRANE supera significativamente tanto as estratégias de decodificação restrita de ponta quanto a decodificação não restrita padrão, mostrando uma melhoria de até 10 pontos percentuais em precisão sobre as linhas de base em benchmarks desafiadores de raciocínio simbólico, como GSM-symbolic e FOLIO.
English
Code generation, symbolic math reasoning, and other tasks require LLMs to
produce outputs that are both syntactically and semantically correct.
Constrained LLM generation is a promising direction to enforce adherence to
formal grammar, but prior works have empirically observed that strict
enforcement of formal constraints often diminishes the reasoning capabilities
of LLMs. In this work, we first provide a theoretical explanation for why
constraining LLM outputs to very restrictive grammars that only allow
syntactically valid final answers reduces the reasoning capabilities of the
model. Second, we demonstrate that by augmenting the output grammar with
carefully designed additional rules, it is always possible to preserve the
reasoning capabilities of the LLM while ensuring syntactic and semantic
correctness in its outputs. Building on these theoretical insights, we propose
a reasoning-augmented constrained decoding algorithm, CRANE, which effectively
balances the correctness of constrained generation with the flexibility of
unconstrained generation. Experiments on multiple open-source LLMs and
benchmarks show that CRANE significantly outperforms both state-of-the-art
constrained decoding strategies and standard unconstrained decoding, showing up
to 10% points accuracy improvement over baselines on challenging symbolic
reasoning benchmarks GSM-symbolic and FOLIO.Summary
AI-Generated Summary