ChatPaper.aiChatPaper

MM-HELIX : Renforcement du raisonnement réflexif multimodal à longue chaîne grâce à une plateforme holistique et une optimisation hybride adaptative des politiques

MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization

October 9, 2025
papers.authors: Xiangyu Zhao, Junming Lin, Tianhao Liang, Yifan Zhou, Wenhao Chai, Yuzhe Gu, Weiyun Wang, Kai Chen, Gen Luo, Wenwei Zhang, Junchi Yan, Hua Yang, Haodong Duan, Xue Yang
cs.AI

papers.abstract

Bien que les modèles de langage multimodaux de grande taille (MLLMs) actuels aient démontré une compétence dans des tâches de raisonnement telles que les mathématiques et la logique, leur capacité à effectuer un raisonnement réflexif en chaîne longue, une condition préalable pour résoudre des problèmes complexes du monde réel, reste largement sous-explorée. Dans ce travail, nous menons d’abord une investigation empirique approfondie pour évaluer cette capacité. En exploitant un moteur de synthèse de données soigneusement conçu, nous construisons MM-HELIX, un benchmark multimodal composé de 1 260 échantillons répartis en 42 tâches synthétiques complexes nécessitant une pensée itérative et un retour en arrière. Les résultats empiriques sur ce benchmark révèlent que les MLLMs existants présentent des déficits de performance significatifs dans le raisonnement réflexif en chaîne longue. Pour pallier cette limitation, nous générons des données post-entraînement et explorons des paradigmes d’apprentissage pour exploiter ces données. Nous développons d’abord le pipeline de génération de réponses par étapes (Step-Elicited Response Generation) pour créer MM-HELIX-100K, un ensemble de données à grande échelle de 100 000 traces de raisonnement réflexif de haute qualité destinées à l’étape de réglage par instruction. Étant donné que l’apprentissage par renforcement standard échoue sur des tâches complexes en raison de signaux de récompense épars et d’un oubli catastrophique après le réglage fin supervisé, nous proposons l’Optimisation de Politique Hybride Adaptative (AHPO), une stratégie d’entraînement novatrice qui unifie dynamiquement la supervision hors ligne et l’optimisation en ligne en une seule étape. Cette stratégie permet au modèle d’apprendre à partir de données expertes lorsque les récompenses sont rares et de mener une exploration indépendante une fois qu’il est compétent. Appliquée au modèle de référence Qwen2.5-VL-7B, notre méthode obtient une amélioration de précision de +18,6 % sur le benchmark MM-HELIX et démontre une forte généralisation avec un gain de performance moyen de +5,7 % sur des tâches générales de mathématiques et de logique. Notre travail montre que le raisonnement réflexif dans les MLLMs peut être efficacement appris et généralisé, ouvrant la voie au développement de MLLMs plus performants.
English
While current Multimodal Large Language Models (MLLMs) have demonstrated proficiency in reasoning tasks such as mathematics and logic, their capacity for long-chain reflective reasoning, a prerequisite for solving complex real-world problems, remains largely underexplored. In this work, we first conduct an extensive empirical investigation to evaluate this capability. Leveraging a carefully designed data synthesis engine, we construct MM-HELIX, a multimodal benchmark consisting 1,260 samples of 42 challenging synthetic tasks that require iterative thinking and backtracking. Empirical results on this benchmark reveal that existing MLLMs exhibit significant performance deficits in long-chain reflective reasoning. To address this limitation, we generate post-training data and further explore learning paradigms for exploiting such data. We first develop the Step-Elicited Response Generation pipeline to create MM-HELIX-100K, a large-scale dataset of 100k high-quality, reflective reasoning traces for instruction-tuning stage. Given that standard Reinforcement Learning fails on complex tasks due to sparse reward signals and catastrophic forgetting after Supervised Fine-Tuning, we propose Adaptive Hybrid Policy Optimization (AHPO), a novel training strategy that dynamically unifies offline supervision and online optimization into a single stage. This strategy enables the model to learn from expert data when rewards are sparse and conduct independent exploration once proficient. When applied to the Qwen2.5-VL-7B baseline, our method achieves a +18.6\% accuracy improvement on MM-HELIX benchmark and demonstrates strong generalization with a +5.7\% average performance gain on general mathematic and logic tasks. Our work demonstrate that reflective reasoning in MLLMs can be effectively learned and generalized, paving the way for developing more capable MLLMs.
PDF933October 10, 2025