SciEducator : Compréhension et Éducation Scientifique par Vidéo via un Système Multi-Agent à Cycle de Deming
SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System
November 22, 2025
papers.authors: Zhiyu Xu, Weilong Yan, Yufei Shi, Xin Meng, Tao He, Huiping Zhuang, Ming Li, Hehe Fan
cs.AI
papers.abstract
Les progrès récents des modèles de langage multimodaux (MLLM) et des systèmes d'agents vidéo ont considérablement amélioré la compréhension générale des vidéos. Cependant, lorsqu'il s'agit de les appliquer à la compréhension et à l'éducation scientifiques via la vidéo – un domaine qui exige l'intégration de connaissances professionnelles externes et un raisonnement rigoureux étape par étape – les approches existantes rencontrent souvent des difficultés. Pour combler cette lacune, nous proposons SciEducator, le premier système multi-agents à évolution itérative et autonome dédié à la compréhension et à l'éducation scientifiques par la vidéo. S'inspirant du cycle de Deming classique issu des sciences de gestion, notre conception reformule sa philosophie Planifier-Faire-Étudier-Agir en un mécanisme de raisonnement et de rétroaction à évolution autonome, qui facilite l'interprétation des activités scientifiques complexes présentes dans les vidéos. De plus, SciEducator peut produire un contenu éducatif multimodal adapté à des processus scientifiques spécifiques, incluant des instructions textuelles, des guides visuels, des narrations audio et des références interactives. Pour soutenir l'évaluation, nous avons constitué SciVBench, un benchmark comprenant 500 paires question-réponse scientifiques, vérifiées par des experts et fondées sur la littérature, réparties en cinq catégories couvrant des phénomènes physiques, chimiques et quotidiens. Des expériences approfondies démontrent que SciEducator surpasse substantiellement les MLLM propriétaires leaders (comme Gemini, GPT-4o) et les agents vidéo les plus avancés sur ce benchmark, établissant ainsi un nouveau paradigme pour la communauté.
English
Recent advancements in multimodal large language models (MLLMs) and video agent systems have significantly improved general video understanding. However, when applied to scientific video understanding and educating, a domain that demands external professional knowledge integration and rigorous step-wise reasoning, existing approaches often struggle. To bridge this gap, we propose SciEducator, the first iterative self-evolving multi-agent system for scientific video comprehension and education. Rooted in the classical Deming Cycle from management science, our design reformulates its Plan-Do-Study-Act philosophy into a self-evolving reasoning and feedback mechanism, which facilitates the interpretation of intricate scientific activities in videos. Moreover, SciEducator can produce multimodal educational content tailored to specific scientific processes, including textual instructions, visual guides, audio narrations, and interactive references. To support evaluation, we construct SciVBench, a benchmark consisting of 500 expert-verified and literature-grounded science QA pairs across five categories, covering physical, chemical, and everyday phenomena. Extensive experiments demonstrate that SciEducator substantially outperforms leading closed-source MLLMs (e.g., Gemini, GPT-4o) and state-of-the-art video agents on the benchmark, establishing a new paradigm for the community.