Razonamiento guiado por código para modelos de lenguaje pequeños: evaluación de andamios ejecutables de preguntas de opción múltiple

Resumen

Los puntos de referencia de preguntas y respuestas de opción múltiple (MCQA) suelen evaluar modelos de lenguaje pequeños (SLM) como respondedores directos, pero los sistemas de modelos de lenguaje desplegados recurren cada vez más a andamios externos, como herramientas, código y llamadas repetidas al modelo. Presentamos el razonamiento guiado por código (CGR), un protocolo de evaluación y un recurso de programas generados diseñado para medir cuándo los andamios de ejecución de razonamiento mejoran el rendimiento de los SLM en tareas de MCQA. CGR estandariza seis componentes: una interfaz de ítem normalizada, una indicación de solucionador directo, una indicación de generador, un andamio de Python, ayudantes de llamada al solucionador y extracción, y un registro de resultados de tres canales. Sobre 20.498 filas de resultados retenidas de un paquete de MCQA preparado localmente y seis modelos de solucionador registrados con metadatos, la partición observada de línea base no nula muestra una precisión asistida macro del 66,21% frente a una precisión directa del 38,11%, una diferencia de +28,10 puntos porcentuales con un intervalo de bootstrap pareado de [20,32, 36,43]. Bajo un umbral más estricto de señal directa Ab > 30%, la diferencia macro es de +14,11 puntos. Estas estimaciones son descriptivas. La inferencia asistida utiliza un presupuesto mayor de llamadas al solucionador, la extracción de respuestas es frágil, Time-MQA contiene las regresiones observadas y algunos programas generados violan la instrucción de no codificar directamente. CGR proporciona el paquete de trazabilidad necesario para interpretar estos resultados, incluidas las respuestas directas, asistidas y del lado del generador, las definiciones de partición, los programas generados, los metadatos de respuesta y las auditorías.

English

Multiple-choice QA benchmarks usually evaluate small language models (SLMs) as direct answerers, but deployed language-model systems increasingly rely on external scaffolds such as tools, code, and repeated model calls. We introduce Code-Guided Reasoning (CGR), an evaluation protocol and generated-program resource for measuring when executable reasoning scaffolds improve SLM performance on MCQA tasks. CGR standardizes six components: a normalized item interface, a direct solver prompt, a generator prompt, a Python scaffold, solver-call and extraction helpers, and a three-channel result record. On 20,498 retained result rows from a locally prepared MCQA bundle and six metadata-registered solver models, the observed non-zero-baseline partition shows 66.21% macro assisted accuracy versus 38.11% direct accuracy, a +28.10 percentage-point difference with a pair-bootstrap interval of [20.32, 36.43]. Under a stricter Ab > 30% direct-signal gate, the macro difference is +14.11 points. These estimates are descriptive. Assisted inference uses a larger solver-call budget, answer extraction is brittle, Time-MQA contains the observed regressions, and some generated programs violate the no-hard-coding instruction. CGR provides the trace package needed to interpret these results, including direct, assisted, and generator-side answers, partition definitions, generated programs, response metadata, and audits.