Physics-R1: Верифицированный корпус олимпиадных задач и рецепт для визуального физического рассуждения

Аннотация

Мы проводим аудит пайплайна оценки мультимодальной физики «от начала до конца» и документируем три необнаруженные конструктивные практики, которые искажают измерение визуально-языковых рассуждений в данной области: контаминация между обучением и оценкой, дрейф перевода и насыщение MCQ. (1) Публичные обучающие пулы (UGPhysics-Train, SciInstruct, MMK12) проходят одностадийный аудит по 5-граммам Жаккара с нулевыми совпадениями во всех шести публичных физических оценках; трехстадийный аудит (Жаккар → косинусное сходство mxbai-embed-large → LLM-судья Haiku-4.5) выявляет 134 почти дублирующихся записи и 4 846 кандидатов в парафразы только в SciInstruct. (2) Дельта Sonnet 4.5 в 17 процентных пунктов (п.п.) на 59 парных задачах эстонско-английских олимпиад (30,5% против 13,6%; знаковый тест p = 0,011, тест МакНемара p = 0,021, парный бутстреп 95% ДИ [+5,1; +28,9] п.п.). (3) Градиент по формату и новизне в 46 п.п. на идентичных весах Sonnet между MCQ (79,7% на PhyX) и оценкой открытых олимпиадных задач (33,4% на PhysOlym-A). Мы выпускаем четыре артефакта, устраняющих эти пробелы: PhysCorp-A (мультимодальный корпус из 6 432 записей, прошедших трехстадийный аудит), PhysR1Corp (пул закрытого RL из 2 268 записей), PhysOlym-A (500 задач, 99,8% из новых источников, выделенная олимпиадная оценка с нативными метками сложности и двуязычным подмножеством EN/ET) и Physics-R1 — эталонный рецепт GSPO+DAPO, холодным стартом взятый из Qwen3-VL-8B-Thinking. По трем зернам Physics-R1 поднимает проверенный корпус над базой 8B на +18,3 п.п. на PhysOlym-A liberal (с 8,0 до 26,3 ± 1,7; отставание на 7,1 п.п. от Sonnet 4.5), +15,7 п.п. на PhysReason (с 23,9 до 39,6 ± 6,4; опережая Qwen3-VL-32B и Gemini 2.5 Pro), +6,9 п.п. на OlympiadBench-Physics (46,2 ± 1,5) и +4,1 п.п. на MCQ PhyX (77,8 ± 0,3).

English

We audit the multimodal-physics evaluation pipeline end-to-end and document three undetected construction practices that distort how the field measures vision-language reasoning: train-eval contamination, translation drift, and MCQ saturation. (1) Public training pools (UGPhysics-Train, SciInstruct, MMK12) pass single-stage 5-gram-Jaccard audits with zero hits across all six public physics evals; a three-stage audit (Jaccard -> mxbai-embed-large cosine -> Haiku-4.5 LLM-judge) surfaces 134 near-duplicates and 4,846 paraphrase candidates in SciInstruct alone. (2) A 17-pp Sonnet 4.5 delta on 59 paired Estonian-English olympiad problems (30.5% vs. 13.6%; sign test p=0.011, McNemar p=0.021, paired bootstrap 95% CI [+5.1, +28.9] pp). (3) A 46-pp format-and-novelty gradient on identical Sonnet weights between MCQ (79.7% on PhyX) and open-ended olympiad evaluation (33.4% on PhysOlym-A). We release four artifacts addressing these gaps: PhysCorp-A (6,432-record three-stage-audited multimodal corpus), PhysR1Corp (2,268-record closed-form RL pool), PhysOlym-A (500-problem, 99.8% novel-source held-out olympiad eval with native difficulty labels and an EN/ET bilingual subset), and Physics-R1, a reference GSPO+DAPO recipe cold-started from Qwen3-VL-8B-Thinking. Across 3 seeds, Physics-R1 lifts the audited corpus over the 8B base by +18.3 pp on PhysOlym-A liberal (8.0 -> 26.3 +/- 1.7; 7.1 pp behind Sonnet 4.5), +15.7 pp on PhysReason (23.9 -> 39.6 +/- 6.4; ahead of Qwen3-VL-32B and Gemini 2.5 Pro), +6.9 pp on OlympiadBench-Physics (46.2 +/- 1.5), and +4.1 pp on PhyX MCQ (77.8 +/- 0.3).