Code2Video: Um Paradigma Centrado em Código para Geração de Vídeos Educacionais

Resumo

Embora os modelos generativos recentes avancem na síntese de vídeos no espaço de pixels, eles ainda são limitados na produção de vídeos educacionais profissionais, que exigem conhecimento disciplinar, estruturas visuais precisas e transições coerentes, limitando sua aplicabilidade em cenários educacionais. Intuitivamente, tais requisitos são melhor abordados por meio da manipulação de um ambiente renderizável, que pode ser explicitamente controlado por comandos lógicos (por exemplo, código). Neste trabalho, propomos o Code2Video, uma estrutura de agente centrada em código para gerar vídeos educacionais por meio de código Python executável. A estrutura compreende três agentes colaborativos: (i) Planejador, que estrutura o conteúdo da aula em fluxos temporalmente coerentes e prepara os recursos visuais correspondentes; (ii) Codificador, que converte instruções estruturadas em códigos Python executáveis, incorporando correção automática guiada por escopo para aumentar a eficiência; e (iii) Crítico, que aproveita modelos de visão e linguagem (VLM) com prompts de âncora visual para refinar o layout espacial e garantir clareza. Para apoiar a avaliação sistemática, construímos o MMMC, um benchmark de vídeos educacionais específicos de disciplina, produzidos profissionalmente. Avaliamos o MMMC em diversas dimensões, incluindo pontuações estéticas VLM-as-a-Judge, eficiência de código e, particularmente, o TeachQuiz, uma nova métrica de ponta a ponta que quantifica o quão bem um VLM, após o desaprendizado, pode recuperar o conhecimento ao assistir aos vídeos gerados. Nossos resultados demonstram o potencial do Code2Video como uma abordagem escalável, interpretável e controlável, alcançando uma melhoria de 40% em relação à geração direta de código e produzindo vídeos comparáveis a tutoriais criados por humanos. O código e os conjuntos de dados estão disponíveis em https://github.com/showlab/Code2Video.

English

While recent generative models advance pixel-space video synthesis, they remain limited in producing professional educational videos, which demand disciplinary knowledge, precise visual structures, and coherent transitions, limiting their applicability in educational scenarios. Intuitively, such requirements are better addressed through the manipulation of a renderable environment, which can be explicitly controlled via logical commands (e.g., code). In this work, we propose Code2Video, a code-centric agent framework for generating educational videos via executable Python code. The framework comprises three collaborative agents: (i) Planner, which structures lecture content into temporally coherent flows and prepares corresponding visual assets; (ii) Coder, which converts structured instructions into executable Python codes while incorporating scope-guided auto-fix to enhance efficiency; and (iii) Critic, which leverages vision-language models (VLM) with visual anchor prompts to refine spatial layout and ensure clarity. To support systematic evaluation, we build MMMC, a benchmark of professionally produced, discipline-specific educational videos. We evaluate MMMC across diverse dimensions, including VLM-as-a-Judge aesthetic scores, code efficiency, and particularly, TeachQuiz, a novel end-to-end metric that quantifies how well a VLM, after unlearning, can recover knowledge by watching the generated videos. Our results demonstrate the potential of Code2Video as a scalable, interpretable, and controllable approach, achieving 40% improvement over direct code generation and producing videos comparable to human-crafted tutorials. The code and datasets are available at https://github.com/showlab/Code2Video.

Code2Video: Um Paradigma Centrado em Código para Geração de Vídeos Educacionais

Code2Video: A Code-centric Paradigm for Educational Video Generation

Resumo

Support