MM-HELIX : Renforcement du raisonnement réflexif multimodal à longue chaîne grâce à une plateforme holistique et une optimisation hybride adaptative des politiques
MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization
October 9, 2025
papers.authors: Xiangyu Zhao, Junming Lin, Tianhao Liang, Yifan Zhou, Wenhao Chai, Yuzhe Gu, Weiyun Wang, Kai Chen, Gen Luo, Wenwei Zhang, Junchi Yan, Hua Yang, Haodong Duan, Xue Yang
cs.AI
papers.abstract
Bien que les modèles de langage multimodaux de grande taille (MLLMs) actuels aient démontré une compétence dans des tâches de raisonnement telles que les mathématiques et la logique, leur capacité à effectuer un raisonnement réflexif en chaîne longue, une condition préalable pour résoudre des problèmes complexes du monde réel, reste largement sous-explorée. Dans ce travail, nous menons d’abord une investigation empirique approfondie pour évaluer cette capacité. En exploitant un moteur de synthèse de données soigneusement conçu, nous construisons MM-HELIX, un benchmark multimodal composé de 1 260 échantillons répartis en 42 tâches synthétiques complexes nécessitant une pensée itérative et un retour en arrière. Les résultats empiriques sur ce benchmark révèlent que les MLLMs existants présentent des déficits de performance significatifs dans le raisonnement réflexif en chaîne longue. Pour pallier cette limitation, nous générons des données post-entraînement et explorons des paradigmes d’apprentissage pour exploiter ces données. Nous développons d’abord le pipeline de génération de réponses par étapes (Step-Elicited Response Generation) pour créer MM-HELIX-100K, un ensemble de données à grande échelle de 100 000 traces de raisonnement réflexif de haute qualité destinées à l’étape de réglage par instruction. Étant donné que l’apprentissage par renforcement standard échoue sur des tâches complexes en raison de signaux de récompense épars et d’un oubli catastrophique après le réglage fin supervisé, nous proposons l’Optimisation de Politique Hybride Adaptative (AHPO), une stratégie d’entraînement novatrice qui unifie dynamiquement la supervision hors ligne et l’optimisation en ligne en une seule étape. Cette stratégie permet au modèle d’apprendre à partir de données expertes lorsque les récompenses sont rares et de mener une exploration indépendante une fois qu’il est compétent. Appliquée au modèle de référence Qwen2.5-VL-7B, notre méthode obtient une amélioration de précision de +18,6 % sur le benchmark MM-HELIX et démontre une forte généralisation avec un gain de performance moyen de +5,7 % sur des tâches générales de mathématiques et de logique. Notre travail montre que le raisonnement réflexif dans les MLLMs peut être efficacement appris et généralisé, ouvrant la voie au développement de MLLMs plus performants.
English
While current Multimodal Large Language Models (MLLMs) have demonstrated
proficiency in reasoning tasks such as mathematics and logic, their capacity
for long-chain reflective reasoning, a prerequisite for solving complex
real-world problems, remains largely underexplored. In this work, we first
conduct an extensive empirical investigation to evaluate this capability.
Leveraging a carefully designed data synthesis engine, we construct MM-HELIX, a
multimodal benchmark consisting 1,260 samples of 42 challenging synthetic tasks
that require iterative thinking and backtracking. Empirical results on this
benchmark reveal that existing MLLMs exhibit significant performance deficits
in long-chain reflective reasoning. To address this limitation, we generate
post-training data and further explore learning paradigms for exploiting such
data. We first develop the Step-Elicited Response Generation pipeline to create
MM-HELIX-100K, a large-scale dataset of 100k high-quality, reflective reasoning
traces for instruction-tuning stage. Given that standard Reinforcement Learning
fails on complex tasks due to sparse reward signals and catastrophic forgetting
after Supervised Fine-Tuning, we propose Adaptive Hybrid Policy Optimization
(AHPO), a novel training strategy that dynamically unifies offline supervision
and online optimization into a single stage. This strategy enables the model to
learn from expert data when rewards are sparse and conduct independent
exploration once proficient. When applied to the Qwen2.5-VL-7B baseline, our
method achieves a +18.6\% accuracy improvement on MM-HELIX benchmark and
demonstrates strong generalization with a +5.7\% average performance gain on
general mathematic and logic tasks. Our work demonstrate that reflective
reasoning in MLLMs can be effectively learned and generalized, paving the way
for developing more capable MLLMs.