Рассуждение на основе кода для малых языковых моделей: оценка исполняемых каркасов MCQA

Аннотация

Многовариантные бенчмарки для вопросно-ответных задач (MCQA) обычно оценивают малые языковые модели (SLM) в качестве прямых отвечающих, однако развернутые системы на основе языковых моделей всё чаще полагаются на внешние каркасы, такие как инструменты, код и повторные вызовы модели. Мы представляем Code-Guided Reasoning (CGR) — протокол оценки и ресурс сгенерированных программ для измерения того, когда исполняемые каркасы рассуждений улучшают производительность SLM в задачах MCQA. CGR стандартизирует шесть компонентов: нормализованный интерфейс элементов, промпт для прямого решателя, промпт для генератора, каркас на Python, вспомогательные функции для вызова решателя и извлечения ответов, а также трёхканальную запись результатов. На 20 498 оставленных строках результатов из локально подготовленного набора MCQA и шести моделях-решателях, зарегистрированных в метаданных, наблюдаемое разбиение с ненулевым базовым уровнем показывает 66,21% макро-ассистированной точности против 38,11% прямой точности, что составляет разницу в +28,10 процентных пункта с парным бутерстроп-интервалом [20,32; 36,43]. При более строгом пороге Ab > 30% прямого сигнала макро-разница составляет +14,11 пункта. Эти оценки являются описательными. Ассистированный вывод требует большего бюджета вызовов решателя, извлечение ответов является хрупким, Time-MQA содержит наблюдаемые регрессии, а некоторые сгенерированные программы нарушают инструкцию о запрете жесткого кодирования. CGR предоставляет пакет трассировки, необходимый для интерпретации этих результатов, включая прямые, ассистированные и сгенерированные со стороны генератора ответы, определения разбиений, сгенерированные программы, метаданные ответов и аудиты.

English

Multiple-choice QA benchmarks usually evaluate small language models (SLMs) as direct answerers, but deployed language-model systems increasingly rely on external scaffolds such as tools, code, and repeated model calls. We introduce Code-Guided Reasoning (CGR), an evaluation protocol and generated-program resource for measuring when executable reasoning scaffolds improve SLM performance on MCQA tasks. CGR standardizes six components: a normalized item interface, a direct solver prompt, a generator prompt, a Python scaffold, solver-call and extraction helpers, and a three-channel result record. On 20,498 retained result rows from a locally prepared MCQA bundle and six metadata-registered solver models, the observed non-zero-baseline partition shows 66.21% macro assisted accuracy versus 38.11% direct accuracy, a +28.10 percentage-point difference with a pair-bootstrap interval of [20.32, 36.43]. Under a stricter Ab > 30% direct-signal gate, the macro difference is +14.11 points. These estimates are descriptive. Assisted inference uses a larger solver-call budget, answer extraction is brittle, Time-MQA contains the observed regressions, and some generated programs violate the no-hard-coding instruction. CGR provides the trace package needed to interpret these results, including direct, assisted, and generator-side answers, partition definitions, generated programs, response metadata, and audits.