ChatPaper.aiChatPaper

SciEducator: Научное видео-понимание и обучение через многоагентную систему с циклом Деминга

SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System

November 22, 2025
Авторы: Zhiyu Xu, Weilong Yan, Yufei Shi, Xin Meng, Tao He, Huiping Zhuang, Ming Li, Hehe Fan
cs.AI

Аннотация

Последние достижения в области мультимодальных больших языковых моделей (МБЯМ) и видео-агентских систем значительно улучшили общее понимание видео. Однако при применении к пониманию и обучению на основе научных видео — области, требующей интеграции внешних профессиональных знаний и строгого пошагового рассуждения, — существующие подходы часто оказываются несостоятельными. Чтобы устранить этот пробел, мы предлагаем SciEducator, первую итеративную саморазвивающуюся мульти-агентную систему для научного восприятия видео и образования. Основываясь на классическом цикле Деминга из науки управления, наша конструкция переосмысливает его философию «Планируй-Делай-Изучай-Действуй» в механизм саморазвивающегося рассуждения и обратной связи, который способствует интерпретации сложных научных действий на видео. Более того, SciEducator может создавать мультимодальный образовательный контент, адаптированный под конкретные научные процессы, включая текстовые инструкции, визуальные руководства, аудио-нарративы и интерактивные ссылки. Для поддержки оценки мы создали SciVBench — эталонный набор, состоящий из 500 экспертно проверенных и основанных на литературе вопросно-ответных пар по научной тематике пяти категорий, охватывающих физические, химические и повседневные явления. Многочисленные эксперименты демонстрируют, что SciEducator существенно превосходит ведущие проприетарные МБЯМ (например, Gemini, GPT-4o) и передовые видео-агенты на данном эталоне, устанавливая новую парадигму для сообщества.
English
Recent advancements in multimodal large language models (MLLMs) and video agent systems have significantly improved general video understanding. However, when applied to scientific video understanding and educating, a domain that demands external professional knowledge integration and rigorous step-wise reasoning, existing approaches often struggle. To bridge this gap, we propose SciEducator, the first iterative self-evolving multi-agent system for scientific video comprehension and education. Rooted in the classical Deming Cycle from management science, our design reformulates its Plan-Do-Study-Act philosophy into a self-evolving reasoning and feedback mechanism, which facilitates the interpretation of intricate scientific activities in videos. Moreover, SciEducator can produce multimodal educational content tailored to specific scientific processes, including textual instructions, visual guides, audio narrations, and interactive references. To support evaluation, we construct SciVBench, a benchmark consisting of 500 expert-verified and literature-grounded science QA pairs across five categories, covering physical, chemical, and everyday phenomena. Extensive experiments demonstrate that SciEducator substantially outperforms leading closed-source MLLMs (e.g., Gemini, GPT-4o) and state-of-the-art video agents on the benchmark, establishing a new paradigm for the community.
PDF22December 1, 2025