Physics-R1 : Un corpus audité d'olympiades et une recette pour le raisonnement visuel en physique

Résumé

Nous auditions le pipeline d'évaluation physique multimodale de bout en bout et documentons trois pratiques de construction non détectées qui déforment la manière dont le domaine mesure le raisonnement vision-langage : la contamination entraînement-évaluation, la dérive de traduction et la saturation des QCM. (1) Les pools d'entraînement publics (UGPhysics-Train, SciInstruct, MMK12) passent des audits Jaccard de 5-grammes à un seul stade avec zéro correspondance sur l'ensemble des six évaluations physiques publiques ; un audit en trois étapes (Jaccard -> cosinus mxbai-embed-large -> Haiku-4.5 LLM-juge) fait apparaître 134 quasi-doublons et 4 846 candidats à la paraphrase dans SciInstruct seul. (2) Un delta de 17 points de pourcentage sur Sonnet 4.5 pour 59 problèmes d'olympiades appariés estonien-anglais (30,5 % contre 13,6 % ; test des signes p=0,011, test de McNemar p=0,021, intervalle de confiance bootstrap apparié à 95 % [+5,1, +28,9] pp). (3) Un gradient de format et de nouveauté de 46 points de pourcentage sur des poids Sonnet identiques entre l'évaluation par QCM (79,7 % sur PhyX) et l'évaluation ouverte d'olympiades (33,4 % sur PhysOlym-A). Nous publions quatre artefacts pour combler ces lacunes : PhysCorp-A (corpus multimodal audité en trois étapes de 6 432 enregistrements), PhysR1Corp (pool RL à forme fermée de 2 268 enregistrements), PhysOlym-A (évaluation d'olympiades mise de côté de 500 problèmes, 99,8 % de sources nouvelles, avec étiquettes de difficulté natives et un sous-ensemble bilingue EN/ET), et Physics-R1, une recette de référence GSPO+DAPO démarrée à froid depuis Qwen3-VL-8B-Thinking. Sur 3 graines, Physics-R1 élève le corpus audité par rapport à la base 8B de +18,3 pp sur PhysOlym-A libéral (8,0 -> 26,3 +/- 1,7 ; 7,1 pp derrière Sonnet 4.5), +15,7 pp sur PhysReason (23,9 -> 39,6 +/- 6,4 ; devant Qwen3-VL-32B et Gemini 2.5 Pro), +6,9 pp sur OlympiadBench-Physics (46,2 +/- 1,5), et +4,1 pp sur QCM PhyX (77,8 +/- 0,3).

English

We audit the multimodal-physics evaluation pipeline end-to-end and document three undetected construction practices that distort how the field measures vision-language reasoning: train-eval contamination, translation drift, and MCQ saturation. (1) Public training pools (UGPhysics-Train, SciInstruct, MMK12) pass single-stage 5-gram-Jaccard audits with zero hits across all six public physics evals; a three-stage audit (Jaccard -> mxbai-embed-large cosine -> Haiku-4.5 LLM-judge) surfaces 134 near-duplicates and 4,846 paraphrase candidates in SciInstruct alone. (2) A 17-pp Sonnet 4.5 delta on 59 paired Estonian-English olympiad problems (30.5% vs. 13.6%; sign test p=0.011, McNemar p=0.021, paired bootstrap 95% CI [+5.1, +28.9] pp). (3) A 46-pp format-and-novelty gradient on identical Sonnet weights between MCQ (79.7% on PhyX) and open-ended olympiad evaluation (33.4% on PhysOlym-A). We release four artifacts addressing these gaps: PhysCorp-A (6,432-record three-stage-audited multimodal corpus), PhysR1Corp (2,268-record closed-form RL pool), PhysOlym-A (500-problem, 99.8% novel-source held-out olympiad eval with native difficulty labels and an EN/ET bilingual subset), and Physics-R1, a reference GSPO+DAPO recipe cold-started from Qwen3-VL-8B-Thinking. Across 3 seeds, Physics-R1 lifts the audited corpus over the 8B base by +18.3 pp on PhysOlym-A liberal (8.0 -> 26.3 +/- 1.7; 7.1 pp behind Sonnet 4.5), +15.7 pp on PhysReason (23.9 -> 39.6 +/- 6.4; ahead of Qwen3-VL-32B and Gemini 2.5 Pro), +6.9 pp on OlympiadBench-Physics (46.2 +/- 1.5), and +4.1 pp on PhyX MCQ (77.8 +/- 0.3).