SeePhys Pro : Diagnostic du transfert de modalité et des effets d'entraînement aveugle dans le RLVR multimodal pour le raisonnement en physique
SeePhys Pro: Diagnosing Modality Transfer and Blind-Training Effects in Multimodal RLVR for Physics Reasoning
May 10, 2026
Auteurs: Kun Xiang, Terry Jingchen Zhang, Zirong Liu, Bokai Zhou, Yueling Tang, Junjie Yu, Jiacong Lu, Shangrui Huang, Heng Li, Likui Zhang, Kunkun Liu, Changzheng Zhang, Yangle Fang, Boqiang Guo, Hui-Ling Zhen, Dandan Tu, Yinya Huang, Xiaodan Liang
cs.AI
Résumé
Nous présentons SeePhys Pro, un benchmark de transfert de modalités fines qui étudie si les modèles préservent la même capacité de raisonnement lorsque des informations critiques sont progressivement transférées du texte à l'image. Contrairement aux benchmarks visuels standard qui évaluent une seule forme d'entrée, SeePhys Pro propose quatre variantes sémantiquement alignées pour chaque problème, avec des éléments visuels progressivement croissants. Notre évaluation montre que les modèles de pointe actuels sont loin d'être des raisonneurs invariants par rapport à la représentation : les performances diminuent en moyenne à mesure que l'information passe du langage aux diagrammes, l'ancrage des variables visuelles étant le goulot d'étranglement le plus critique. Motivés par cette fragilité au moment de l'inférence, nous développons en outre de grands corpus d'entraînement pour le RLVR multimodal et utilisons l'entraînement aveugle comme contrôle diagnostique, constatant que le RL avec toutes les images d'entraînement masquées peut encore améliorer les performances sur des ensembles de validation non masqués. Pour analyser cet effet, des contrôles par suppression de texte, taux de masquage d'images et saturation du format suggèrent que ces gains peuvent provenir d'indices textuels résiduels et distributionnels plutôt que de preuves visuelles valides. Nos résultats soulignent la nécessité d'évaluer le raisonnement multimodal non seulement par l'exactitude de la réponse finale, mais aussi par la robustesse lors du transfert de modalités et par des diagnostics qui testent si les améliorations reposent sur des preuves visuelles critiques pour la tâche.
English
We introduce SeePhys Pro, a fine-grained modality transfer benchmark that studies whether models preserve the same reasoning capability when critical information is progressively transferred from text to image. Unlike standard vision-essential benchmarks that evaluate a single input form, SeePhys Pro features four semantically aligned variants for each problem with progressively increasing visual elements. Our evaluation shows that current frontier models are far from representation-invariant reasoners: performance degrades on average as information moves from language to diagrams, with visual variable grounding as the most critical bottleneck. Motivated by this inference-time fragility, we further develop large training corpora for multimodal RLVR and use blind training as a diagnostic control, finding that RL with all training images masked can still improve performance on unmasked validation sets. To analyze this effect, text-deletion, image-mask-rate, and format-saturation controls suggest that such gains can arise from residual textual and distributional cues rather than valid visual evidence. Our results highlight the need to evaluate multimodal reasoning not only by final-answer accuracy, but also by robustness under modality transfer and by diagnostics that test whether improvements rely on task-critical visual evidence.