SeePhys Pro: Diagnóstico de la Transferencia de Modalidad y Efectos de Entrenamiento Ciego en RLVR Multimodal para Razonamiento Físico
SeePhys Pro: Diagnosing Modality Transfer and Blind-Training Effects in Multimodal RLVR for Physics Reasoning
May 10, 2026
Autores: Kun Xiang, Terry Jingchen Zhang, Zirong Liu, Bokai Zhou, Yueling Tang, Junjie Yu, Jiacong Lu, Shangrui Huang, Heng Li, Likui Zhang, Kunkun Liu, Changzheng Zhang, Yangle Fang, Boqiang Guo, Hui-Ling Zhen, Dandan Tu, Yinya Huang, Xiaodan Liang
cs.AI
Resumen
Presentamos SeePhys Pro, un punto de referencia de transferencia de modalidad a nivel fino que estudia si los modelos preservan la misma capacidad de razonamiento cuando la información crítica se transfiere progresivamente del texto a la imagen. A diferencia de los puntos de referencia estándar centrados en la visión, que evalúan una única forma de entrada, SeePhys Pro cuenta con cuatro variantes semánticamente alineadas para cada problema, con elementos visuales que aumentan progresivamente. Nuestra evaluación muestra que los modelos frontera actuales distan mucho de ser razonadores invariantes a la representación: el rendimiento promedio se degrada a medida que la información pasa del lenguaje a los diagramas, siendo el anclaje de variables visuales el cuello de botella más crítico. Motivados por esta fragilidad en tiempo de inferencia, desarrollamos corpus de entrenamiento extensos para RLVR multimodal y utilizamos el entrenamiento ciego como control diagnóstico, encontrando que el RL con todas las imágenes de entrenamiento enmascaradas aún puede mejorar el rendimiento en conjuntos de validación sin enmascarar. Para analizar este efecto, los controles de eliminación de texto, tasa de enmascaramiento de imágenes y saturación de formato sugieren que dichas mejoras pueden surgir de señales textuales y distribucionales residuales, en lugar de evidencia visual válida. Nuestros resultados subrayan la necesidad de evaluar el razonamiento multimodal no solo por la precisión de la respuesta final, sino también por la robustez frente a la transferencia de modalidad y mediante diagnósticos que verifiquen si las mejoras dependen de evidencia visual crítica para la tarea.
English
We introduce SeePhys Pro, a fine-grained modality transfer benchmark that studies whether models preserve the same reasoning capability when critical information is progressively transferred from text to image. Unlike standard vision-essential benchmarks that evaluate a single input form, SeePhys Pro features four semantically aligned variants for each problem with progressively increasing visual elements. Our evaluation shows that current frontier models are far from representation-invariant reasoners: performance degrades on average as information moves from language to diagrams, with visual variable grounding as the most critical bottleneck. Motivated by this inference-time fragility, we further develop large training corpora for multimodal RLVR and use blind training as a diagnostic control, finding that RL with all training images masked can still improve performance on unmasked validation sets. To analyze this effect, text-deletion, image-mask-rate, and format-saturation controls suggest that such gains can arise from residual textual and distributional cues rather than valid visual evidence. Our results highlight the need to evaluate multimodal reasoning not only by final-answer accuracy, but also by robustness under modality transfer and by diagnostics that test whether improvements rely on task-critical visual evidence.