SciEducator: Compreensão e Educação Científica por Vídeo através de Sistema Multi-Agente baseado no Ciclo de Deming

Resumo

Os recentes avanços nos modelos de linguagem grandes multimodais (MLLMs) e nos sistemas de agentes de vídeo melhoraram significativamente a compreensão geral de vídeos. No entanto, quando aplicados à compreensão e educação científica por vídeo, um domínio que exige a integração de conhecimento profissional externo e um raciocínio rigoroso passo a passo, as abordagens existentes frequentemente apresentam dificuldades. Para preencher essa lacuna, propomos o SciEducator, o primeiro sistema multiagente de auto-evolução iterativa para compreensão e educação científica por vídeo. Baseado no clássico Ciclo de Deming da ciência da gestão, nosso projeto reformula sua filosofia Planejar-Fazer-Verificar-Agir em um mecanismo de raciocínio e feedback de auto-evolução, que facilita a interpretação de atividades científicas complexas em vídeos. Além disso, o SciEducator pode produzir conteúdo educacional multimodal personalizado para processos científicos específicos, incluindo instruções textuais, guias visuais, narrações em áudio e referências interativas. Para apoiar a avaliação, construímos o SciVBench, um benchmark composto por 500 pares de perguntas e respostas científicas verificadas por especialistas e fundamentadas na literatura, abrangendo cinco categorias de fenômenos físicos, químicos e do cotidiano. Experimentos extensivos demonstram que o SciEducator supera substancialmente os principais MLLMs de código fechado (por exemplo, Gemini, GPT-4o) e os agentes de vídeo state-of-the-art no benchmark, estabelecendo um novo paradigma para a comunidade.

English

Recent advancements in multimodal large language models (MLLMs) and video agent systems have significantly improved general video understanding. However, when applied to scientific video understanding and educating, a domain that demands external professional knowledge integration and rigorous step-wise reasoning, existing approaches often struggle. To bridge this gap, we propose SciEducator, the first iterative self-evolving multi-agent system for scientific video comprehension and education. Rooted in the classical Deming Cycle from management science, our design reformulates its Plan-Do-Study-Act philosophy into a self-evolving reasoning and feedback mechanism, which facilitates the interpretation of intricate scientific activities in videos. Moreover, SciEducator can produce multimodal educational content tailored to specific scientific processes, including textual instructions, visual guides, audio narrations, and interactive references. To support evaluation, we construct SciVBench, a benchmark consisting of 500 expert-verified and literature-grounded science QA pairs across five categories, covering physical, chemical, and everyday phenomena. Extensive experiments demonstrate that SciEducator substantially outperforms leading closed-source MLLMs (e.g., Gemini, GPT-4o) and state-of-the-art video agents on the benchmark, establishing a new paradigm for the community.