ChatPaper.aiChatPaper

SciEducator: PDCAサイクルに基づくマルチエージェントシステムによる科学的動画の理解と教育

SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System

November 22, 2025
著者: Zhiyu Xu, Weilong Yan, Yufei Shi, Xin Meng, Tao He, Huiping Zhuang, Ming Li, Hehe Fan
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)とビデオエージェントシステムの最近の進展は、一般的なビデオ理解を大幅に改善した。しかし、外部の専門知識の統合と厳密な段階的推論を要求する科学分野のビデオ理解と教育に適用する場合、既存の手法はしばしば困難に直面する。このギャップを埋めるため、我々は科学ビデオ理解と教育のための最初の反復的自己進化型マルチエージェントシステムであるSciEducatorを提案する。経営学における古典的デミングサイクルに基づく我々の設計は、そのPlan-Do-Study-Actの哲学を自己進化型推論・フィードバック機構へと再構成し、ビデオ中の複雑な科学活動の解釈を促進する。さらに、SciEducatorは、特定の科学プロセスに合わせて調整されたマルチモーダル教育コンテンツ(テキスト説明、視覚的ガイド、音声ナレーション、インタラクティブな参考文献を含む)を生成できる。評価を支援するため、物理、化学、日常現象の5カテゴリにわたる専門家検証済みかつ文献に基づいた500の科学QAペアから構成されるベンチマークSciVBenchを構築した。大規模な実験により、SciEducatorがベンチマークにおいて主要なクローズドソースMLLM(Gemini、GPT-4oなど)や最先端のビデオエージェントを大幅に上回り、コミュニティにとって新しいパラダイムを確立することを実証した。
English
Recent advancements in multimodal large language models (MLLMs) and video agent systems have significantly improved general video understanding. However, when applied to scientific video understanding and educating, a domain that demands external professional knowledge integration and rigorous step-wise reasoning, existing approaches often struggle. To bridge this gap, we propose SciEducator, the first iterative self-evolving multi-agent system for scientific video comprehension and education. Rooted in the classical Deming Cycle from management science, our design reformulates its Plan-Do-Study-Act philosophy into a self-evolving reasoning and feedback mechanism, which facilitates the interpretation of intricate scientific activities in videos. Moreover, SciEducator can produce multimodal educational content tailored to specific scientific processes, including textual instructions, visual guides, audio narrations, and interactive references. To support evaluation, we construct SciVBench, a benchmark consisting of 500 expert-verified and literature-grounded science QA pairs across five categories, covering physical, chemical, and everyday phenomena. Extensive experiments demonstrate that SciEducator substantially outperforms leading closed-source MLLMs (e.g., Gemini, GPT-4o) and state-of-the-art video agents on the benchmark, establishing a new paradigm for the community.
PDF22December 1, 2025