Physics-R1: Un corpus de Olimpiadas auditado y una receta para el razonamiento visual en física

Resumen

Auditamos el canal de evaluación multimodal de física de extremo a extremo y documentamos tres prácticas de construcción no detectadas que distorsionan la medición del razonamiento visión-lenguaje en este campo: contaminación entre entrenamiento y evaluación, deriva en la traducción y saturación de MCQ. (1) Los pools de entrenamiento públicos (UGPhysics-Train, SciInstruct, MMK12) pasan auditorías Jaccard de 5-gramas de una sola etapa con cero coincidencias en las seis evaluaciones de física públicas; una auditoría de tres etapas (Jaccard → coseno de mxbai-embed-large → juez LLM Haiku-4.5) revela 134 casi duplicados y 4846 candidatos a paráfrasis solo en SciInstruct. (2) Un delta de 17 pp de Sonnet 4.5 en 59 problemas de olimpiada emparejados en estonio e inglés (30.5% vs. 13.6%; prueba de signos p=0.011, McNemar p=0.021, IC bootstrap pareado del 95% [+5.1, +28.9] pp). (3) Un gradiente de formato y novedad de 46 pp en pesos idénticos de Sonnet entre MCQ (79.7% en PhyX) y evaluación abierta de olimpiada (33.4% en PhysOlym-A). Publicamos cuatro artefactos que abordan estas brechas: PhysCorp-A (corpus multimodal auditado en tres etapas con 6432 registros), PhysR1Corp (pool de RL de forma cerrada con 2268 registros), PhysOlym-A (evaluación de olimpiada retenida con 500 problemas, 99.8% de fuente novedosa, etiquetas de dificultad nativas y un subconjunto bilingüe EN/ET), y Physics-R1, una receta de referencia GSPO+DAPO iniciada en frío desde Qwen3-VL-8B-Thinking. En 3 semillas, Physics-R1 eleva el corpus auditado sobre la base de 8B en +18.3 pp en PhysOlym-A liberal (8.0 → 26.3 ± 1.7; 7.1 pp por detrás de Sonnet 4.5), +15.7 pp en PhysReason (23.9 → 39.6 ± 6.4; por delante de Qwen3-VL-32B y Gemini 2.5 Pro), +6.9 pp en OlympiadBench-Physics (46.2 ± 1.5) y +4.1 pp en MCQ de PhyX (77.8 ± 0.3).

English

We audit the multimodal-physics evaluation pipeline end-to-end and document three undetected construction practices that distort how the field measures vision-language reasoning: train-eval contamination, translation drift, and MCQ saturation. (1) Public training pools (UGPhysics-Train, SciInstruct, MMK12) pass single-stage 5-gram-Jaccard audits with zero hits across all six public physics evals; a three-stage audit (Jaccard -> mxbai-embed-large cosine -> Haiku-4.5 LLM-judge) surfaces 134 near-duplicates and 4,846 paraphrase candidates in SciInstruct alone. (2) A 17-pp Sonnet 4.5 delta on 59 paired Estonian-English olympiad problems (30.5% vs. 13.6%; sign test p=0.011, McNemar p=0.021, paired bootstrap 95% CI [+5.1, +28.9] pp). (3) A 46-pp format-and-novelty gradient on identical Sonnet weights between MCQ (79.7% on PhyX) and open-ended olympiad evaluation (33.4% on PhysOlym-A). We release four artifacts addressing these gaps: PhysCorp-A (6,432-record three-stage-audited multimodal corpus), PhysR1Corp (2,268-record closed-form RL pool), PhysOlym-A (500-problem, 99.8% novel-source held-out olympiad eval with native difficulty labels and an EN/ET bilingual subset), and Physics-R1, a reference GSPO+DAPO recipe cold-started from Qwen3-VL-8B-Thinking. Across 3 seeds, Physics-R1 lifts the audited corpus over the 8B base by +18.3 pp on PhysOlym-A liberal (8.0 -> 26.3 +/- 1.7; 7.1 pp behind Sonnet 4.5), +15.7 pp on PhysReason (23.9 -> 39.6 +/- 6.4; ahead of Qwen3-VL-32B and Gemini 2.5 Pro), +6.9 pp on OlympiadBench-Physics (46.2 +/- 1.5), and +4.1 pp on PhyX MCQ (77.8 +/- 0.3).