MAPS: Een Multi-Agent Framework Gebaseerd op de Big Seven Persoonlijkheid en Socratische Begeleiding voor Multimodaal Wetenschappelijk Probleemoplossen
MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving
March 21, 2025
Auteurs: Jian Zhang, Zhiyuan Wang, Zhangqi Wang, Xinyu Zhang, Fangzhi Xu, Qika Lin, Rui Mao, Erik Cambria, Jun Liu
cs.AI
Samenvatting
Multimodale wetenschappelijke problemen (MSPs) omvatten complexe vraagstukken die de integratie van meerdere modaliteiten vereisen, zoals tekst en diagrammen, wat een aanzienlijke uitdaging vormt binnen kunstmatige intelligentie. Hoewel er vooruitgang is geboekt bij het aanpakken van traditionele wetenschappelijke problemen, kampen MSPs nog steeds met twee primaire kwesties: de uitdaging van multimodale alomvattende redenering bij het oplossen van wetenschappelijke problemen en het ontbreken van reflectieve en herbezinningscapaciteiten. Om deze kwesties aan te pakken, introduceren we een Multi-Agent framework gebaseerd op de Big Seven Persoonlijkheid en Socratische begeleiding (MAPS). Dit framework maakt gebruik van zeven verschillende agents die feedbackmechanismen en de Socratische methode inzetten om de oplossing van MSPs te begeleiden. Voor de eerste kwestie stellen we een progressieve vier-agent oplossingsstrategie voor, waarbij elke agent zich richt op een specifieke fase van het probleemoplossingsproces. Voor de tweede kwestie introduceren we een Critic-agent, geïnspireerd door Socratisch vragen stellen, die kritisch denken stimuleert en autonoom leren aanmoedigt. We voeren uitgebreide experimenten uit op de EMMA, Olympiad en MathVista datasets, waarbij we veelbelovende resultaten behalen die de huidige SOTA-model met 15,84% overtreffen voor alle taken. Tegelijkertijd bevestigen de aanvullende analytische experimenten ook de vooruitgang en het generalisatievermogen van het model.
English
Multimodal scientific problems (MSPs) involve complex issues that require the
integration of multiple modalities, such as text and diagrams, presenting a
significant challenge in artificial intelligence. While progress has been made
in addressing traditional scientific problems, MSPs still face two primary
issues: the challenge of multi-modal comprehensive reasoning in scientific
problem-solving and the lack of reflective and rethinking capabilities. To
address these issues, we introduce a Multi-Agent framework based on the Big
Seven Personality and Socratic guidance (MAPS). This framework employs seven
distinct agents that leverage feedback mechanisms and the Socratic method to
guide the resolution of MSPs. To tackle the first issue, we propose a
progressive four-agent solving strategy, where each agent focuses on a specific
stage of the problem-solving process. For the second issue, we introduce a
Critic agent, inspired by Socratic questioning, which prompts critical thinking
and stimulates autonomous learning. We conduct extensive experiments on the
EMMA, Olympiad, and MathVista datasets, achieving promising results that
outperform the current SOTA model by 15.84% across all tasks. Meanwhile, the
additional analytical experiments also verify the model's progress as well as
generalization ability.Summary
AI-Generated Summary