小規模言語モデルのためのコード誘導推論：実行可能なMCQAスキャフォールドの評価

要旨

多肢選択QAベンチマークでは通常、小規模言語モデル（SLM）を直接的な回答者として評価するが、実運用される言語モデルシステムはツール、コード、繰り返しのモデル呼び出しなどの外部スキャフォールドに依存するようになっている。本論文では、実行可能な推論スキャフォールドがMCQAタスクにおけるSLMの性能をいつ向上させるかを測定するための評価プロトコルおよび生成プログラムリソースであるCode-Guided Reasoning（CGR）を導入する。CGRは、正規化された項目インターフェース、直接ソルバープロンプト、ジェネレータープロンプト、Pythonスキャフォールド、ソルバー呼び出しと抽出のヘルパー、3チャンネル結果記録の6つの構成要素を標準化する。ローカルに準備されたMCQAバンドルと6つのメタデータ登録済みソルバーモデルから得られた20,498行の保持結果行において、観測された非ゼロベースライン分割では、マクロ支援正解率が66.21%、直接正解率が38.11%となり、その差は+28.10パーセントポイント（ペアブートストラップ区間[20.32、36.43]）であった。より厳格なAb > 30%直接信号ゲートの下では、マクロ差は+14.11ポイントであった。これらの推定値は記述的なものである。支援推論はより大きなソルバー呼び出し予算を使用し、回答抽出は脆弱であり、Time-MQAには観測された回帰が含まれ、一部の生成プログラムはハードコーディング禁止指示に違反している。CGRは、これらの結果を解釈するために必要なトレースパッケージ（直接回答、支援回答、ジェネレーター側回答、分割定義、生成プログラム、応答メタデータ、監査を含む）を提供する。

English

Multiple-choice QA benchmarks usually evaluate small language models (SLMs) as direct answerers, but deployed language-model systems increasingly rely on external scaffolds such as tools, code, and repeated model calls. We introduce Code-Guided Reasoning (CGR), an evaluation protocol and generated-program resource for measuring when executable reasoning scaffolds improve SLM performance on MCQA tasks. CGR standardizes six components: a normalized item interface, a direct solver prompt, a generator prompt, a Python scaffold, solver-call and extraction helpers, and a three-channel result record. On 20,498 retained result rows from a locally prepared MCQA bundle and six metadata-registered solver models, the observed non-zero-baseline partition shows 66.21% macro assisted accuracy versus 38.11% direct accuracy, a +28.10 percentage-point difference with a pair-bootstrap interval of [20.32, 36.43]. Under a stricter Ab > 30% direct-signal gate, the macro difference is +14.11 points. These estimates are descriptive. Assisted inference uses a larger solver-call budget, answer extraction is brittle, Time-MQA contains the observed regressions, and some generated programs violate the no-hard-coding instruction. CGR provides the trace package needed to interpret these results, including direct, assisted, and generator-side answers, partition definitions, generated programs, response metadata, and audits.