MAPS: Un Framework Multi-Agente Basato sulla Personalità Big Seven e sulla Guida Socratica per la Risoluzione Multimodale di Problemi Scientifici
MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving
March 21, 2025
Autori: Jian Zhang, Zhiyuan Wang, Zhangqi Wang, Xinyu Zhang, Fangzhi Xu, Qika Lin, Rui Mao, Erik Cambria, Jun Liu
cs.AI
Abstract
I problemi scientifici multimodali (MSP) riguardano questioni complesse che richiedono l'integrazione di più modalità, come testo e diagrammi, rappresentando una sfida significativa nell'intelligenza artificiale. Sebbene siano stati compiuti progressi nell'affrontare problemi scientifici tradizionali, gli MSP continuano a presentare due questioni principali: la difficoltà del ragionamento multimodale completo nella risoluzione di problemi scientifici e la mancanza di capacità riflessive e di ripensamento. Per affrontare queste problematiche, introduciamo un framework multi-agente basato sulla personalità dei Big Seven e sulla guida socratica (MAPS). Questo framework impiega sette agenti distinti che sfruttano meccanismi di feedback e il metodo socratico per guidare la risoluzione degli MSP. Per risolvere la prima questione, proponiamo una strategia di risoluzione progressiva a quattro agenti, in cui ciascun agente si concentra su una fase specifica del processo di problem-solving. Per la seconda questione, introduciamo un agente Critico, ispirato al questioning socratico, che stimola il pensiero critico e favorisce l'apprendimento autonomo. Abbiamo condotto esperimenti estesi sui dataset EMMA, Olympiad e MathVista, ottenendo risultati promettenti che superano il modello SOTA attuale del 15,84% in tutte le attività. Nel frattempo, ulteriori esperimenti analitici hanno anche verificato i progressi del modello e la sua capacità di generalizzazione.
English
Multimodal scientific problems (MSPs) involve complex issues that require the
integration of multiple modalities, such as text and diagrams, presenting a
significant challenge in artificial intelligence. While progress has been made
in addressing traditional scientific problems, MSPs still face two primary
issues: the challenge of multi-modal comprehensive reasoning in scientific
problem-solving and the lack of reflective and rethinking capabilities. To
address these issues, we introduce a Multi-Agent framework based on the Big
Seven Personality and Socratic guidance (MAPS). This framework employs seven
distinct agents that leverage feedback mechanisms and the Socratic method to
guide the resolution of MSPs. To tackle the first issue, we propose a
progressive four-agent solving strategy, where each agent focuses on a specific
stage of the problem-solving process. For the second issue, we introduce a
Critic agent, inspired by Socratic questioning, which prompts critical thinking
and stimulates autonomous learning. We conduct extensive experiments on the
EMMA, Olympiad, and MathVista datasets, achieving promising results that
outperform the current SOTA model by 15.84% across all tasks. Meanwhile, the
additional analytical experiments also verify the model's progress as well as
generalization ability.