SciEducator: Comprensione e Educazione Scientifica tramite Video attraverso un Sistema Multi-Agente basato sul Ciclo di Deming
SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System
November 22, 2025
Autori: Zhiyu Xu, Weilong Yan, Yufei Shi, Xin Meng, Tao He, Huiping Zhuang, Ming Li, Hehe Fan
cs.AI
Abstract
I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLM) e nei sistemi agenti video hanno migliorato significativamente la comprensione generale dei video. Tuttavia, quando applicati alla comprensione e all'educazione scientifica tramite video, un dominio che richiede l'integrazione di conoscenze professionali esterne e un ragionamento rigoroso passo-passo, gli approcci esistenti spesso incontrano difficoltà. Per colmare questa lacuna, proponiamo SciEducator, il primo sistema multi-agente auto-evolutivo iterativo per la comprensione e l'educazione scientifica tramite video. Radicato nel classico Ciclo di Deming della scienza gestionale, il nostro progetto riformula la sua filosofia Plan-Do-Study-Act in un meccanismo di ragionamento e feedback auto-evolutivo, che facilita l'interpretazione di intricate attività scientifiche nei video. Inoltre, SciEducator può produrre contenuti educativi multimodali personalizzati per specifici processi scientifici, incluse istruzioni testuali, guide visive, narrazioni audio e riferimenti interattivi. Per supportare la valutazione, abbiamo costruito SciVBench, un benchmark composto da 500 coppie domanda-risposta scientifiche verificate da esperti e basate sulla letteratura, distribuite in cinque categorie che coprono fenomeni fisici, chimici e quotidiani. Esperimenti estensivi dimostrano che SciEducator supera sostanzialmente i principali MLLM closed-source (ad esempio, Gemini, GPT-4o) e gli agenti video all'avanguardia sul benchmark, stabilendo un nuovo paradigma per la comunità.
English
Recent advancements in multimodal large language models (MLLMs) and video agent systems have significantly improved general video understanding. However, when applied to scientific video understanding and educating, a domain that demands external professional knowledge integration and rigorous step-wise reasoning, existing approaches often struggle. To bridge this gap, we propose SciEducator, the first iterative self-evolving multi-agent system for scientific video comprehension and education. Rooted in the classical Deming Cycle from management science, our design reformulates its Plan-Do-Study-Act philosophy into a self-evolving reasoning and feedback mechanism, which facilitates the interpretation of intricate scientific activities in videos. Moreover, SciEducator can produce multimodal educational content tailored to specific scientific processes, including textual instructions, visual guides, audio narrations, and interactive references. To support evaluation, we construct SciVBench, a benchmark consisting of 500 expert-verified and literature-grounded science QA pairs across five categories, covering physical, chemical, and everyday phenomena. Extensive experiments demonstrate that SciEducator substantially outperforms leading closed-source MLLMs (e.g., Gemini, GPT-4o) and state-of-the-art video agents on the benchmark, establishing a new paradigm for the community.