MAPS: Un Framework Multi-Agente Basato sulla Personalità Big Seven e sulla Guida Socratica per la Risoluzione Multimodale di Problemi Scientifici

Abstract

I problemi scientifici multimodali (MSP) riguardano questioni complesse che richiedono l'integrazione di più modalità, come testo e diagrammi, rappresentando una sfida significativa nell'intelligenza artificiale. Sebbene siano stati compiuti progressi nell'affrontare problemi scientifici tradizionali, gli MSP continuano a presentare due questioni principali: la difficoltà del ragionamento multimodale completo nella risoluzione di problemi scientifici e la mancanza di capacità riflessive e di ripensamento. Per affrontare queste problematiche, introduciamo un framework multi-agente basato sulla personalità dei Big Seven e sulla guida socratica (MAPS). Questo framework impiega sette agenti distinti che sfruttano meccanismi di feedback e il metodo socratico per guidare la risoluzione degli MSP. Per risolvere la prima questione, proponiamo una strategia di risoluzione progressiva a quattro agenti, in cui ciascun agente si concentra su una fase specifica del processo di problem-solving. Per la seconda questione, introduciamo un agente Critico, ispirato al questioning socratico, che stimola il pensiero critico e favorisce l'apprendimento autonomo. Abbiamo condotto esperimenti estesi sui dataset EMMA, Olympiad e MathVista, ottenendo risultati promettenti che superano il modello SOTA attuale del 15,84% in tutte le attività. Nel frattempo, ulteriori esperimenti analitici hanno anche verificato i progressi del modello e la sua capacità di generalizzazione.

English

Multimodal scientific problems (MSPs) involve complex issues that require the integration of multiple modalities, such as text and diagrams, presenting a significant challenge in artificial intelligence. While progress has been made in addressing traditional scientific problems, MSPs still face two primary issues: the challenge of multi-modal comprehensive reasoning in scientific problem-solving and the lack of reflective and rethinking capabilities. To address these issues, we introduce a Multi-Agent framework based on the Big Seven Personality and Socratic guidance (MAPS). This framework employs seven distinct agents that leverage feedback mechanisms and the Socratic method to guide the resolution of MSPs. To tackle the first issue, we propose a progressive four-agent solving strategy, where each agent focuses on a specific stage of the problem-solving process. For the second issue, we introduce a Critic agent, inspired by Socratic questioning, which prompts critical thinking and stimulates autonomous learning. We conduct extensive experiments on the EMMA, Olympiad, and MathVista datasets, achieving promising results that outperform the current SOTA model by 15.84% across all tasks. Meanwhile, the additional analytical experiments also verify the model's progress as well as generalization ability.

MAPS: Un Framework Multi-Agente Basato sulla Personalità Big Seven e sulla Guida Socratica per la Risoluzione Multimodale di Problemi Scientifici

MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving

Abstract

Support