ChatPaper.aiChatPaper

SciEducator: Wissenschaftliches Videoverständnis und Bildung durch ein Deming-Cycle-Multi-Agenten-System

SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System

November 22, 2025
papers.authors: Zhiyu Xu, Weilong Yan, Yufei Shi, Xin Meng, Tao He, Huiping Zhuang, Ming Li, Hehe Fan
cs.AI

papers.abstract

Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) und Video-Agenten-Systemen haben das allgemeine Videoverständnis erheblich verbessert. Bei der Anwendung auf wissenschaftliches Videoverständnis und Bildungsaufgaben – einem Bereich, der die Integration von externem Fachwissen und strenges schrittweises Denken erfordert – stoßen bestehende Ansätze jedoch oft an ihre Grenzen. Um diese Lücke zu schließen, stellen wir SciEducator vor, das erste iterative, sich selbst weiterentwickelnde Multi-Agenten-System für wissenschaftliches Videoverständnis und Bildungszwecke. Unser Design, das auf dem klassischen Deming-Zyklus aus der Managementwissenschaft basiert, formt dessen Plan-Do-Check-Act-Prinzipien in einen sich selbst entwickelnden Reasoning- und Feedback-Mechanismus um, der die Interpretation komplexer wissenschaftlicher Abläufe in Videos erleichtert. Darüber hinaus kann SciEducator maßgeschneiderte multimodale Bildungsinhalte zu spezifischen wissenschaftlichen Prozessen erstellen, darunter textuelle Anleitungen, visuelle Anweisungen, Audio-Narrationen und interaktive Referenzen. Zur Evaluierung haben wir SciVBench entwickelt, einen Benchmark mit 500 von Experten verifizierten und literaturgestützten wissenschaftlichen Frage-Antwort-Paaren aus fünf Kategorien, die physikalische, chemische und Alltagsphänomene abdecken. Umfangreiche Experimente zeigen, dass SciEducator auf diesem Benchmark führende Closed-Source-MLLMs (z.B. Gemini, GPT-4o) und state-of-the-art Video-Agenten deutlich übertrifft und damit ein neues Paradigma für die Community etabliert.
English
Recent advancements in multimodal large language models (MLLMs) and video agent systems have significantly improved general video understanding. However, when applied to scientific video understanding and educating, a domain that demands external professional knowledge integration and rigorous step-wise reasoning, existing approaches often struggle. To bridge this gap, we propose SciEducator, the first iterative self-evolving multi-agent system for scientific video comprehension and education. Rooted in the classical Deming Cycle from management science, our design reformulates its Plan-Do-Study-Act philosophy into a self-evolving reasoning and feedback mechanism, which facilitates the interpretation of intricate scientific activities in videos. Moreover, SciEducator can produce multimodal educational content tailored to specific scientific processes, including textual instructions, visual guides, audio narrations, and interactive references. To support evaluation, we construct SciVBench, a benchmark consisting of 500 expert-verified and literature-grounded science QA pairs across five categories, covering physical, chemical, and everyday phenomena. Extensive experiments demonstrate that SciEducator substantially outperforms leading closed-source MLLMs (e.g., Gemini, GPT-4o) and state-of-the-art video agents on the benchmark, establishing a new paradigm for the community.
PDF22December 1, 2025