Raisonnement guidé par le code pour les petits modèles de langage : évaluation des échafaudages exécutables pour MCQA

Résumé

Les benchmarks de questions à choix multiples évaluent généralement les petits modèles de langage (SLM) en tant que répondeurs directs, mais les systèmes de modèles de langage déployés s'appuient de plus en plus sur des échafaudages externes tels que des outils, du code et des appels répétés au modèle. Nous présentons le raisonnement guidé par le code (CGR), un protocole d'évaluation et une ressource de programmes générés pour mesurer quand les échafaudages de raisonnement exécutables améliorent les performances des SLM sur les tâches MCQA. CGR standardise six composants : une interface normalisée pour les items, un prompt de solveur direct, un prompt de générateur, un échafaudage Python, des aides pour l'appel au solveur et l'extraction, ainsi qu'un enregistrement de résultats à trois canaux. Sur 20 498 lignes de résultats retenues provenant d'un ensemble MCQA préparé localement et de six modèles solveurs enregistrés avec métadonnées, la partition de base non nulle observée montre une précision assistée macro de 66,21 % contre une précision directe de 38,11 %, soit une différence de +28,10 points de pourcentage avec un intervalle de bootstrap par paires de [20,32, 36,43]. Sous une condition de seuil plus stricte Ab > 30 % de signal direct, la différence macro est de +14,11 points. Ces estimations sont descriptives. L'inférence assistée utilise un budget d'appels au solveur plus important, l'extraction de réponses est fragile, Time-MQA contient les régressions observées, et certains programmes générés violent l'instruction d'absence de codage en dur. CGR fournit le paquet de traces nécessaire pour interpréter ces résultats, y compris les réponses directes, assistées et du côté du générateur, les définitions de partitions, les programmes générés, les métadonnées de réponse et les audits.

English

Multiple-choice QA benchmarks usually evaluate small language models (SLMs) as direct answerers, but deployed language-model systems increasingly rely on external scaffolds such as tools, code, and repeated model calls. We introduce Code-Guided Reasoning (CGR), an evaluation protocol and generated-program resource for measuring when executable reasoning scaffolds improve SLM performance on MCQA tasks. CGR standardizes six components: a normalized item interface, a direct solver prompt, a generator prompt, a Python scaffold, solver-call and extraction helpers, and a three-channel result record. On 20,498 retained result rows from a locally prepared MCQA bundle and six metadata-registered solver models, the observed non-zero-baseline partition shows 66.21% macro assisted accuracy versus 38.11% direct accuracy, a +28.10 percentage-point difference with a pair-bootstrap interval of [20.32, 36.43]. Under a stricter Ab > 30% direct-signal gate, the macro difference is +14.11 points. These estimates are descriptive. Assisted inference uses a larger solver-call budget, answer extraction is brittle, Time-MQA contains the observed regressions, and some generated programs violate the no-hard-coding instruction. CGR provides the trace package needed to interpret these results, including direct, assisted, and generator-side answers, partition definitions, generated programs, response metadata, and audits.