CRANE: Raciocínio com geração de LLM restrita

Resumo

A geração de código, o raciocínio matemático simbólico e outras tarefas exigem que os LLMs produzam saídas que sejam sintática e semanticamente corretas. A geração restrita de LLMs é uma direção promissora para garantir a adesão a gramáticas formais, mas trabalhos anteriores observaram empiricamente que a aplicação rigorosa de restrições formais frequentemente diminui as capacidades de raciocínio dos LLMs. Neste trabalho, primeiro fornecemos uma explicação teórica para o motivo pelo qual restringir as saídas dos LLMs a gramáticas muito restritivas, que permitem apenas respostas finais sintaticamente válidas, reduz as capacidades de raciocínio do modelo. Em segundo lugar, demonstramos que, ao expandir a gramática de saída com regras adicionais cuidadosamente projetadas, é sempre possível preservar as capacidades de raciocínio do LLM enquanto se garante a correção sintática e semântica em suas saídas. Com base nessas percepções teóricas, propomos um algoritmo de decodificação restrita aumentada por raciocínio, o CRANE, que equilibra efetivamente a correção da geração restrita com a flexibilidade da geração não restrita. Experimentos com múltiplos LLMs de código aberto e benchmarks mostram que o CRANE supera significativamente tanto as estratégias de decodificação restrita de ponta quanto a decodificação não restrita padrão, mostrando uma melhoria de até 10 pontos percentuais em precisão sobre as linhas de base em benchmarks desafiadores de raciocínio simbólico, como GSM-symbolic e FOLIO.

English

Code generation, symbolic math reasoning, and other tasks require LLMs to produce outputs that are both syntactically and semantically correct. Constrained LLM generation is a promising direction to enforce adherence to formal grammar, but prior works have empirically observed that strict enforcement of formal constraints often diminishes the reasoning capabilities of LLMs. In this work, we first provide a theoretical explanation for why constraining LLM outputs to very restrictive grammars that only allow syntactically valid final answers reduces the reasoning capabilities of the model. Second, we demonstrate that by augmenting the output grammar with carefully designed additional rules, it is always possible to preserve the reasoning capabilities of the LLM while ensuring syntactic and semantic correctness in its outputs. Building on these theoretical insights, we propose a reasoning-augmented constrained decoding algorithm, CRANE, which effectively balances the correctness of constrained generation with the flexibility of unconstrained generation. Experiments on multiple open-source LLMs and benchmarks show that CRANE significantly outperforms both state-of-the-art constrained decoding strategies and standard unconstrained decoding, showing up to 10% points accuracy improvement over baselines on challenging symbolic reasoning benchmarks GSM-symbolic and FOLIO.

CRANE: Raciocínio com geração de LLM restrita

CRANE: Reasoning with constrained LLM generation

Resumo

Support