Code-geleid redeneren voor kleine taalmodellen: Evaluatie van uitvoerbare MCQA-scaffolds

Samenvatting

Meerkeuzevragen-benchmarks evalueren doorgaans kleine taalmodellen (KTM'en) als directe antwoorders, maar de inzet van taalmodelsystemen steunt steeds vaker op externe hulpmiddelen zoals gereedschappen, code en herhaalde modelaanroepen. Wij introduceren Code-Geleide Redenering (CGR), een evaluatieprotocol en een bron van gegenereerde programma's om te meten wanneer uitvoerbare redeneersteigers de prestaties van KTM'en bij meerkeuzevragen verbeteren. CGR standaardiseert zes componenten: een genormaliseerde iteminterface, een directe oplosserprompt, een generatorprompt, een Python-steiger, hulpfuncties voor oplosseraanroepen en -extractie, en een driekanaals resultaatsrecord. Uit 20.498 behouden resultaatrijen afkomstig van een lokaal voorbereide MCQA-bundel en zes metadatageregistreerde oplossermodellen, vertoont de waargenomen niet-nul-baseline-verdeling een macro ondersteunde nauwkeurigheid van 66,21% tegenover 38,11% directe nauwkeurigheid, een verschil van +28,10 procentpunt met een paar-bootstrap-interval van [20,32; 36,43]. Onder een strengere drempel van Ab > 30% direct-signaal bedraagt het macroverschil +14,11 punten. Deze schattingen zijn beschrijvend. Ondersteunde inferentie gebruikt een ruimer oplosseraanroepbudget, antwoordeigen extractie is breekbaar, Tijd-MCQA bevat de waargenomen regressies, en sommige gegenereerde programma's overtreden de instructie om niet hard te coderen. CGR biedt het trace-pakket dat nodig is om deze resultaten te interpreteren, inclusief directe, ondersteunde en generatorzijde-antwoorden, verdelingdefinities, gegenereerde programma's, responsmetadata en audits.

English

Multiple-choice QA benchmarks usually evaluate small language models (SLMs) as direct answerers, but deployed language-model systems increasingly rely on external scaffolds such as tools, code, and repeated model calls. We introduce Code-Guided Reasoning (CGR), an evaluation protocol and generated-program resource for measuring when executable reasoning scaffolds improve SLM performance on MCQA tasks. CGR standardizes six components: a normalized item interface, a direct solver prompt, a generator prompt, a Python scaffold, solver-call and extraction helpers, and a three-channel result record. On 20,498 retained result rows from a locally prepared MCQA bundle and six metadata-registered solver models, the observed non-zero-baseline partition shows 66.21% macro assisted accuracy versus 38.11% direct accuracy, a +28.10 percentage-point difference with a pair-bootstrap interval of [20.32, 36.43]. Under a stricter Ab > 30% direct-signal gate, the macro difference is +14.11 points. These estimates are descriptive. Assisted inference uses a larger solver-call budget, answer extraction is brittle, Time-MQA contains the observed regressions, and some generated programs violate the no-hard-coding instruction. CGR provides the trace package needed to interpret these results, including direct, assisted, and generator-side answers, partition definitions, generated programs, response metadata, and audits.