Raciocínio guiado por código para modelos de linguagem pequenos: avaliando scaffolds executáveis de MCQA

Resumo

Normalmente, benchmarks de perguntas de múltipla escolha (MCQA) avaliam modelos de linguagem pequenos (SLMs) como respondedores diretos, mas sistemas de modelos de linguagem implantados cada vez mais dependem de suportes externos, como ferramentas, código e chamadas repetidas ao modelo. Apresentamos o Raciocínio Guiado por Código (CGR), um protocolo de avaliação e um recurso de programas gerados para medir quando suportes de raciocínio executáveis melhoram o desempenho de SLMs em tarefas de MCQA. O CGR padroniza seis componentes: uma interface normalizada de itens, um prompt de solução direta, um prompt gerador, um suporte Python, auxiliares de chamada ao solucionador e extração, e um registro de resultados em três canais. Em 20.498 linhas de resultado retidas de um pacote de MCQA preparado localmente e seis modelos solucionadores registrados por metadados, a partição observada com linha de base não nula mostra 66,21% de precisão assistida macro versus 38,11% de precisão direta, uma diferença de +28,10 pontos percentuais com um intervalo de bootstrap pareado de [20,32, 36,43]. Sob um critério mais rigoroso de gate de sinal direto Ab > 30%, a diferença macro é de +14,11 pontos. Essas estimativas são descritas. A inferência assistida utiliza um orçamento maior de chamadas ao solucionador, a extração de respostas é frágil, a Time-MQA contém as regressões observadas, e alguns programas gerados violam a instrução de não codificação rígida. O CGR fornece o pacote de rastreamento necessário para interpretar esses resultados, incluindo respostas diretas, assistidas e do lado do gerador, definições de partição, programas gerados, metadados de resposta e auditorias.

English

Multiple-choice QA benchmarks usually evaluate small language models (SLMs) as direct answerers, but deployed language-model systems increasingly rely on external scaffolds such as tools, code, and repeated model calls. We introduce Code-Guided Reasoning (CGR), an evaluation protocol and generated-program resource for measuring when executable reasoning scaffolds improve SLM performance on MCQA tasks. CGR standardizes six components: a normalized item interface, a direct solver prompt, a generator prompt, a Python scaffold, solver-call and extraction helpers, and a three-channel result record. On 20,498 retained result rows from a locally prepared MCQA bundle and six metadata-registered solver models, the observed non-zero-baseline partition shows 66.21% macro assisted accuracy versus 38.11% direct accuracy, a +28.10 percentage-point difference with a pair-bootstrap interval of [20.32, 36.43]. Under a stricter Ab > 30% direct-signal gate, the macro difference is +14.11 points. These estimates are descriptive. Assisted inference uses a larger solver-call budget, answer extraction is brittle, Time-MQA contains the observed regressions, and some generated programs violate the no-hard-coding instruction. CGR provides the trace package needed to interpret these results, including direct, assisted, and generator-side answers, partition definitions, generated programs, response metadata, and audits.