MAPS: Un Marco de Trabajo Multiagente Basado en la Personalidad del Modelo Big Seven y la Guía Socrática para la Resolución Multimodal de Problemas Científicos
MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving
March 21, 2025
Autores: Jian Zhang, Zhiyuan Wang, Zhangqi Wang, Xinyu Zhang, Fangzhi Xu, Qika Lin, Rui Mao, Erik Cambria, Jun Liu
cs.AI
Resumen
Los problemas científicos multimodales (MSPs, por sus siglas en inglés) involucran cuestiones complejas que requieren la integración de múltiples modalidades, como texto y diagramas, lo que representa un desafío significativo en la inteligencia artificial. Si bien se ha avanzado en la resolución de problemas científicos tradicionales, los MSPs aún enfrentan dos problemas principales: el desafío del razonamiento integral multimodal en la resolución de problemas científicos y la falta de capacidades reflexivas y de reconsideración. Para abordar estos problemas, presentamos un marco de Multi-Agentes basado en la Personalidad de los Siete Grandes y la guía socrática (MAPS, por sus siglas en inglés). Este marco emplea siete agentes distintos que aprovechan mecanismos de retroalimentación y el método socrático para guiar la resolución de MSPs. Para abordar el primer problema, proponemos una estrategia de resolución progresiva de cuatro agentes, donde cada agente se enfoca en una etapa específica del proceso de resolución de problemas. Para el segundo problema, introducimos un agente Crítico, inspirado en el cuestionamiento socrático, que fomenta el pensamiento crítico y estimula el aprendizaje autónomo. Realizamos experimentos exhaustivos en los conjuntos de datos EMMA, Olimpiada y MathVista, obteniendo resultados prometedores que superan al modelo SOTA actual en un 15.84% en todas las tareas. Además, los experimentos analíticos adicionales también verifican el progreso del modelo, así como su capacidad de generalización.
English
Multimodal scientific problems (MSPs) involve complex issues that require the
integration of multiple modalities, such as text and diagrams, presenting a
significant challenge in artificial intelligence. While progress has been made
in addressing traditional scientific problems, MSPs still face two primary
issues: the challenge of multi-modal comprehensive reasoning in scientific
problem-solving and the lack of reflective and rethinking capabilities. To
address these issues, we introduce a Multi-Agent framework based on the Big
Seven Personality and Socratic guidance (MAPS). This framework employs seven
distinct agents that leverage feedback mechanisms and the Socratic method to
guide the resolution of MSPs. To tackle the first issue, we propose a
progressive four-agent solving strategy, where each agent focuses on a specific
stage of the problem-solving process. For the second issue, we introduce a
Critic agent, inspired by Socratic questioning, which prompts critical thinking
and stimulates autonomous learning. We conduct extensive experiments on the
EMMA, Olympiad, and MathVista datasets, achieving promising results that
outperform the current SOTA model by 15.84% across all tasks. Meanwhile, the
additional analytical experiments also verify the model's progress as well as
generalization ability.Summary
AI-Generated Summary