Voir plus signifie-t-il savoir plus ? Normalisation de l'avantage à ancrage unique pour le raisonnement visuel multi-source

Résumé

Le raisonnement visuel via l'apprentissage par renforcement avec récompenses vérifiables (RLVR) a connu des progrès remarquables. Cependant, face à des entrées multi-sources, les approches existantes tendent à les traiter comme une simple accumulation d'informations, sans disposer de mécanismes explicites permettant de distinguer si l'intégration de sources supplémentaires apporte un gain d'information ou introduit des interférences. Par conséquent, elles peinent à modéliser efficacement l'interaction dynamique lors de l'intégration de sources multiples, en particulier lorsque celles-ci diffèrent considérablement par leurs propriétés physiques et leur sémantique, par exemple dans le cas de l'infrarouge et de la profondeur, ce qui entraîne des performances inférieures au raisonnement mono-source lorsqu'une source particulière porte le signal dominant. Pour résoudre ce problème, nous proposons MARS, un nouveau cadre de raisonnement multi-source à ancrage unique qui modélise chaque modalité visuelle comme une source d'information indépendante. Plus précisément, en traitant les récompenses mono-source comme des ancres dynamiques, notre méthode intègre explicitement le gain d'information introduit par la fusion multi-source dans la normalisation des avantages et adapte de manière dynamique la promotion mutuelle entre les sources tout en supprimant les bruits ou conflits potentiels durant le RLVR. D'un point de vue théorique, notre méthode quantifie efficacement le gain d'information introduit par l'intégration multi-source dans l'estimation du gradient, permettant une régulation cohérente des modalités. Les résultats empiriques montrent également des gains de performance impressionnants de 3,2 % et 4,9 % sur GRPO et DAPO, respectivement, sur divers ensembles de données, confirmant l'efficacité de notre méthode.

English

Visual reasoning through reinforcement learning with verifiable rewards (RLVR) has achieved remarkable progress. However, when dealing with multi-source inputs, existing approaches tend to treat them as a mere accumulation of information, lacking explicit mechanisms to distinguish whether integrating additional sources yields information gain or introduces interference. Therefore, they struggle to effectively model dynamic interaction when integrating multiple sources, particularly when they differ significantly in physical properties and semantics, e.g., infrared and depth, leading to inferior performance to mono-source reasoning when a certain source holds the dominant signal. To address this issue, we propose MARS, a novel mono-anchored multi-source reasoning framework that models each visual modality as an independent information source. Specifically, by treating mono-source rewards as dynamic anchors, our method explicitly incorporates the information gain introduced by multi-source fusion into advantage normalization and adaptively emphasizes mutual promotion between sources while suppressing potential noise or conflicts during RLVR. From theoretical analysis, our method effectively quantifies information gain introduced by multi-source integration in gradient estimation, enabling consistent modality regulation. Empirical results also show impressive 3.2% and 4.9% performance gains on GRPO and DAPO across diverse datasets, confirming effectiveness of our method.