MAPS : Un Cadre Multi-Agents Basé sur la Personnalité Big Seven et le Guidage Socratique pour la Résolution Multimodale de Problèmes Scientifiques
MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving
March 21, 2025
Auteurs: Jian Zhang, Zhiyuan Wang, Zhangqi Wang, Xinyu Zhang, Fangzhi Xu, Qika Lin, Rui Mao, Erik Cambria, Jun Liu
cs.AI
Résumé
Les problèmes scientifiques multimodaux (MSPs) impliquent des enjeux complexes nécessitant l'intégration de multiples modalités, telles que le texte et les diagrammes, ce qui représente un défi majeur en intelligence artificielle. Bien que des progrès aient été réalisés dans la résolution des problèmes scientifiques traditionnels, les MSPs rencontrent encore deux problèmes principaux : la difficulté de raisonnement multimodal global dans la résolution de problèmes scientifiques et le manque de capacités de réflexion et de remise en question. Pour résoudre ces problèmes, nous introduisons un cadre Multi-Agent basé sur les Big Seven de la personnalité et le guidage socratique (MAPS). Ce cadre utilise sept agents distincts qui exploitent des mécanismes de rétroaction et la méthode socratique pour guider la résolution des MSPs. Pour aborder le premier problème, nous proposons une stratégie de résolution progressive à quatre agents, où chaque agent se concentre sur une étape spécifique du processus de résolution de problèmes. Pour le second problème, nous introduisons un agent Critique, inspiré par le questionnement socratique, qui stimule la pensée critique et encourage l'apprentissage autonome. Nous menons des expériences approfondies sur les ensembles de données EMMA, Olympiad et MathVista, obtenant des résultats prometteurs qui surpassent le modèle SOTA actuel de 15,84 % sur toutes les tâches. Par ailleurs, les expériences analytiques supplémentaires confirment également les progrès du modèle ainsi que sa capacité de généralisation.
English
Multimodal scientific problems (MSPs) involve complex issues that require the
integration of multiple modalities, such as text and diagrams, presenting a
significant challenge in artificial intelligence. While progress has been made
in addressing traditional scientific problems, MSPs still face two primary
issues: the challenge of multi-modal comprehensive reasoning in scientific
problem-solving and the lack of reflective and rethinking capabilities. To
address these issues, we introduce a Multi-Agent framework based on the Big
Seven Personality and Socratic guidance (MAPS). This framework employs seven
distinct agents that leverage feedback mechanisms and the Socratic method to
guide the resolution of MSPs. To tackle the first issue, we propose a
progressive four-agent solving strategy, where each agent focuses on a specific
stage of the problem-solving process. For the second issue, we introduce a
Critic agent, inspired by Socratic questioning, which prompts critical thinking
and stimulates autonomous learning. We conduct extensive experiments on the
EMMA, Olympiad, and MathVista datasets, achieving promising results that
outperform the current SOTA model by 15.84% across all tasks. Meanwhile, the
additional analytical experiments also verify the model's progress as well as
generalization ability.Summary
AI-Generated Summary