Code-gestütztes Reasoning für kleine Sprachmodelle: Evaluierung ausführbarer MCQA-Gerüste

Zusammenfassung

Multiple-Choice-Frage-Antwort-Benchmarks bewerten kleine Sprachmodelle (SLMs) üblicherweise als direkte Beantworter, aber eingesetzte Sprachmodellsysteme verlassen sich zunehmend auf externe Gerüste wie Werkzeuge, Code und wiederholte Modellaufrufe. Wir führen Code-Guided Reasoning (CGR) ein, ein Evaluationsprotokoll und eine Ressource für generierte Programme, um zu messen, wann ausführbare Argumentationsgerüste die SLM-Leistung bei MCQA-Aufgaben verbessern. CGR standardisiert sechs Komponenten: eine normalisierte Itemschnittstelle, einen direkten Löser-Prompt, einen Generator-Prompt, ein Python-Gerüst, Löseraufruf- und Extraktionshilfen sowie einen Drei-Kanal-Ergebnisdatensatz. Bei 20.498 beibehaltenen Ergebniszeilen aus einem lokal vorbereiteten MCQA-Bündel und sechs metadatenregistrierten Lösermodellen zeigt die beobachtete Nicht-Null-Baseline-Partition eine makrogestützte Genauigkeit von 66,21 % gegenüber einer direkten Genauigkeit von 38,11 %, eine Differenz von +28,10 Prozentpunkten mit einem Paar-Bootstrap-Intervall von [20,32, 36,43]. Unter einem strengeren Ab > 30 % direkten Signal-Gate beträgt die makroskopische Differenz +14,11 Punkte. Diese Schätzungen sind deskriptiv. Die assistierte Inferenz verwendet ein größeres Löseraufruf-Budget, die Antwortextraktion ist anfällig, Time-MQA enthält die beobachteten Regressionen, und einige generierte Programme verletzen die Anweisung zum Verzicht auf fest codierte Werte. CGR stellt das Trace-Paket bereit, das zur Interpretation dieser Ergebnisse erforderlich ist, einschließlich direkter, assistierter und generatorseitiger Antworten, Partitionsdefinitionen, generierter Programme, Antwortmetadaten und Audits.

English

Multiple-choice QA benchmarks usually evaluate small language models (SLMs) as direct answerers, but deployed language-model systems increasingly rely on external scaffolds such as tools, code, and repeated model calls. We introduce Code-Guided Reasoning (CGR), an evaluation protocol and generated-program resource for measuring when executable reasoning scaffolds improve SLM performance on MCQA tasks. CGR standardizes six components: a normalized item interface, a direct solver prompt, a generator prompt, a Python scaffold, solver-call and extraction helpers, and a three-channel result record. On 20,498 retained result rows from a locally prepared MCQA bundle and six metadata-registered solver models, the observed non-zero-baseline partition shows 66.21% macro assisted accuracy versus 38.11% direct accuracy, a +28.10 percentage-point difference with a pair-bootstrap interval of [20.32, 36.43]. Under a stricter Ab > 30% direct-signal gate, the macro difference is +14.11 points. These estimates are descriptive. Assisted inference uses a larger solver-call budget, answer extraction is brittle, Time-MQA contains the observed regressions, and some generated programs violate the no-hard-coding instruction. CGR provides the trace package needed to interpret these results, including direct, assisted, and generator-side answers, partition definitions, generated programs, response metadata, and audits.