SciEducator: Wetenschappelijke Videobegrip en Educatie via een Deming-Cyclus Multi-Agent Systeem
SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System
November 22, 2025
Auteurs: Zhiyu Xu, Weilong Yan, Yufei Shi, Xin Meng, Tao He, Huiping Zhuang, Ming Li, Hehe Fan
cs.AI
Samenvatting
Recente vooruitgang in multimodale grote taalmodellen (MLLM's) en video-agentensystemen heeft het algemene videobegrip aanzienlijk verbeterd. Bij de toepassing op wetenschappelijk videobegrip en educatie – een domein dat integratie van externe professionele kennis en rigoureuze stapsgewijze redenering vereist – komen bestaande benaderingen echter vaak tekort. Om deze kloof te overbruggen, stellen we SciEducator voor, het eerste iteratieve, zelf-evoluerende multi-agentensysteem voor wetenschappelijke videocomprehensie en educatie. Geworteld in de klassieke Demingcyclus uit de managementwetenschap, vertaalt ons ontwerp de Plan-Do-Check-Act-filosofie naar een zelf-evoluerend redeneer- en feedbackmechanisme, dat de interpretatie van complexe wetenschappelijke activiteiten in video's vergemakkelijkt. Bovendien kan SciEducator multimodale educatieve content produceren, afgestemd op specifieke wetenschappelijke processen, waaronder tekstuele instructies, visuele gidsen, audio-narratieven en interactieve referenties. Ter ondersteuning van evaluatie hebben we SciVBench geconstrueerd, een benchmark bestaande uit 500 deskundig geverifieerde en in de literatuur onderbouwde wetenschappelijke vraag-antwoordparen in vijf categorieën, die fysische, chemische en alledaagse fenomenen bestrijken. Uitgebreide experimenten tonen aan dat SciEducator aanzienlijk beter presteert dan toonaangevende closed-source MLLM's (zoals Gemini, GPT-4o) en state-of-the-art video-agenten op de benchmark, waarmee een nieuw paradigma voor de onderzoeksgemeenschap wordt gevestigd.
English
Recent advancements in multimodal large language models (MLLMs) and video agent systems have significantly improved general video understanding. However, when applied to scientific video understanding and educating, a domain that demands external professional knowledge integration and rigorous step-wise reasoning, existing approaches often struggle. To bridge this gap, we propose SciEducator, the first iterative self-evolving multi-agent system for scientific video comprehension and education. Rooted in the classical Deming Cycle from management science, our design reformulates its Plan-Do-Study-Act philosophy into a self-evolving reasoning and feedback mechanism, which facilitates the interpretation of intricate scientific activities in videos. Moreover, SciEducator can produce multimodal educational content tailored to specific scientific processes, including textual instructions, visual guides, audio narrations, and interactive references. To support evaluation, we construct SciVBench, a benchmark consisting of 500 expert-verified and literature-grounded science QA pairs across five categories, covering physical, chemical, and everyday phenomena. Extensive experiments demonstrate that SciEducator substantially outperforms leading closed-source MLLMs (e.g., Gemini, GPT-4o) and state-of-the-art video agents on the benchmark, establishing a new paradigm for the community.