MAPS: Многоагентная структура, основанная на модели "Большой семерки" личностных черт и сократовском наставничестве для решения мультимодальных научных задач
MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving
March 21, 2025
Авторы: Jian Zhang, Zhiyuan Wang, Zhangqi Wang, Xinyu Zhang, Fangzhi Xu, Qika Lin, Rui Mao, Erik Cambria, Jun Liu
cs.AI
Аннотация
Мультимодальные научные задачи (MSPs) представляют собой сложные проблемы, требующие интеграции нескольких модальностей, таких как текст и диаграммы, что создает значительные трудности в области искусственного интеллекта. Хотя прогресс был достигнут в решении традиционных научных задач, MSPs по-прежнему сталкиваются с двумя основными проблемами: сложностью многомодального комплексного рассуждения в процессе решения научных задач и отсутствием рефлексивных и переосмысливающих способностей. Для решения этих проблем мы представляем мультиагентную структуру, основанную на модели "Большой семерки" личности и сократовском руководстве (MAPS). Эта структура использует семь различных агентов, которые применяют механизмы обратной связи и сократовский метод для руководства процессом решения MSPs. Для решения первой проблемы мы предлагаем прогрессивную стратегию решения с участием четырех агентов, где каждый агент сосредоточен на определенном этапе процесса решения задачи. Для второй проблемы мы вводим агента-критика, вдохновленного сократовским методом вопросов, который стимулирует критическое мышление и способствует автономному обучению. Мы проводим обширные эксперименты на наборах данных EMMA, Olympiad и MathVista, достигая впечатляющих результатов, которые превосходят текущую модель SOTA на 15,84% по всем задачам. Дополнительные аналитические эксперименты также подтверждают прогресс модели и ее способность к обобщению.
English
Multimodal scientific problems (MSPs) involve complex issues that require the
integration of multiple modalities, such as text and diagrams, presenting a
significant challenge in artificial intelligence. While progress has been made
in addressing traditional scientific problems, MSPs still face two primary
issues: the challenge of multi-modal comprehensive reasoning in scientific
problem-solving and the lack of reflective and rethinking capabilities. To
address these issues, we introduce a Multi-Agent framework based on the Big
Seven Personality and Socratic guidance (MAPS). This framework employs seven
distinct agents that leverage feedback mechanisms and the Socratic method to
guide the resolution of MSPs. To tackle the first issue, we propose a
progressive four-agent solving strategy, where each agent focuses on a specific
stage of the problem-solving process. For the second issue, we introduce a
Critic agent, inspired by Socratic questioning, which prompts critical thinking
and stimulates autonomous learning. We conduct extensive experiments on the
EMMA, Olympiad, and MathVista datasets, achieving promising results that
outperform the current SOTA model by 15.84% across all tasks. Meanwhile, the
additional analytical experiments also verify the model's progress as well as
generalization ability.Summary
AI-Generated Summary