SciEducator: Comprensión y Educación Científica mediante Videos a través de un Sistema Multi-Agente basado en el Ciclo de Deming
SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System
November 22, 2025
Autores: Zhiyu Xu, Weilong Yan, Yufei Shi, Xin Meng, Tao He, Huiping Zhuang, Ming Li, Hehe Fan
cs.AI
Resumen
Los recientes avances en modelos de lenguaje multimodal (MLLM) y sistemas agentes de video han mejorado significativamente la comprensión general de videos. Sin embargo, cuando se aplican a la comprensión y educación con videos científicos, un dominio que exige la integración de conocimiento profesional externo y un razonamiento riguroso paso a paso, los enfoques existentes suelen presentar dificultades. Para cerrar esta brecha, proponemos SciEducator, el primer sistema multiagente de autoevolución iterativa para la comprensión y educación con videos científicos. Basado en el clásico Ciclo de Deming de la ciencia de la gestión, nuestro diseño reformula su filosofía Planificar-Hacer-Estudiar-Actuar en un mecanismo de razonamiento y retroalimentación autoevolutivo, que facilita la interpretación de actividades científicas complejas en videos. Además, SciEducator puede producir contenido educativo multimodal adaptado a procesos científicos específicos, incluyendo instrucciones textuales, guías visuales, narraciones de audio y referencias interactivas. Para respaldar la evaluación, construimos SciVBench, un benchmark que consiste en 500 pares de preguntas y respuestas científicas verificadas por expertos y basadas en literatura, abarcando cinco categorías que cubren fenómenos físicos, químicos y cotidianos. Experimentos exhaustivos demuestran que SciEducator supera sustancialmente a los MLLM cerrados líderes (por ejemplo, Gemini, GPT-4o) y a los agentes de video más avanzados en el benchmark, estableciendo un nuevo paradigma para la comunidad.
English
Recent advancements in multimodal large language models (MLLMs) and video agent systems have significantly improved general video understanding. However, when applied to scientific video understanding and educating, a domain that demands external professional knowledge integration and rigorous step-wise reasoning, existing approaches often struggle. To bridge this gap, we propose SciEducator, the first iterative self-evolving multi-agent system for scientific video comprehension and education. Rooted in the classical Deming Cycle from management science, our design reformulates its Plan-Do-Study-Act philosophy into a self-evolving reasoning and feedback mechanism, which facilitates the interpretation of intricate scientific activities in videos. Moreover, SciEducator can produce multimodal educational content tailored to specific scientific processes, including textual instructions, visual guides, audio narrations, and interactive references. To support evaluation, we construct SciVBench, a benchmark consisting of 500 expert-verified and literature-grounded science QA pairs across five categories, covering physical, chemical, and everyday phenomena. Extensive experiments demonstrate that SciEducator substantially outperforms leading closed-source MLLMs (e.g., Gemini, GPT-4o) and state-of-the-art video agents on the benchmark, establishing a new paradigm for the community.