ChatPaper.aiChatPaper

SciEducator: 데밍 사이클 기반 다중 에이전트 시스템을 통한 과학 영상 이해 및 교육

SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System

November 22, 2025
저자: Zhiyu Xu, Weilong Yan, Yufei Shi, Xin Meng, Tao He, Huiping Zhuang, Ming Li, Hehe Fan
cs.AI

초록

최근 멀티모달 대규모 언어 모델(MLLM)과 비디오 에이전트 시스템의 발전으로 일반적인 비디오 이해 능력이 크게 향상되었습니다. 그러나 외부 전문 지식 통합과 엄격한 단계적 추론을 요구하는 과학 영역의 비디오 이해 및 교육에 기존 접근법을 적용할 때는 한계를 보입니다. 이러한 격차를 해소하기 위해 본 연구에서는 과학 비디오 이해 및 교육을 위한 최초의 반복적 자가 진화 다중 에이전트 시스템인 SciEducator를 제안합니다. 관리 과학의 고전적인 데밍 사이클(Plan-Do-Study-Act)을 기반으로 한 우리의 설계는 이 철학을 자가 진화 추론 및 피드백 메커니즘으로 재구성하여 비디오에 나타난 복잡한 과학적 활동의 해석을 용이하게 합니다. 더 나아가 SciEducator는 텍스트 설명, 시각적 가이드, 오디오 나레이션, 상호 참조 자료를 포함하여 특정 과학 과정에 맞춤화된 멀티모달 교육 콘텐츠를 생성할 수 있습니다. 평가를 지원하기 위해 물리, 화학, 일상 현상 등 5개 범주에 걸쳐 전문가 검증 및 문헌 기반 과학 질의-응답 500쌍으로 구성된 벤치마크 SciVBench를 구축했습니다. 폭넓은 실험 결과, SciEducator는 해당 벤치마크에서 주요 클로즈드 소스 MLLM(예: Gemini, GPT-4o)과 최첨단 비디오 에이전트를 크게 능가하며, 해당 연구 커뮤니티에 새로운 패러다임을 정립하였습니다.
English
Recent advancements in multimodal large language models (MLLMs) and video agent systems have significantly improved general video understanding. However, when applied to scientific video understanding and educating, a domain that demands external professional knowledge integration and rigorous step-wise reasoning, existing approaches often struggle. To bridge this gap, we propose SciEducator, the first iterative self-evolving multi-agent system for scientific video comprehension and education. Rooted in the classical Deming Cycle from management science, our design reformulates its Plan-Do-Study-Act philosophy into a self-evolving reasoning and feedback mechanism, which facilitates the interpretation of intricate scientific activities in videos. Moreover, SciEducator can produce multimodal educational content tailored to specific scientific processes, including textual instructions, visual guides, audio narrations, and interactive references. To support evaluation, we construct SciVBench, a benchmark consisting of 500 expert-verified and literature-grounded science QA pairs across five categories, covering physical, chemical, and everyday phenomena. Extensive experiments demonstrate that SciEducator substantially outperforms leading closed-source MLLMs (e.g., Gemini, GPT-4o) and state-of-the-art video agents on the benchmark, establishing a new paradigm for the community.
PDF22December 1, 2025